自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 mysql binlog操作日志打满存储

由于 mysql 配置没有设置 操作日志的过期清除策略,导致存储打满。解决方法:1.mysql启动不了手动删除部分操作日志,重启mysql2.mysql 服务正常 1>直接修改操作日志过期删除策略:expire_logs_days = 3 #自动删除3天前的日志。默认值为0,表示从不删除。log-bin=mysql-bin #注释掉之后,会关闭binlog日志...

2022-01-27 14:41:05 1537

原创 hive sql

1 三个分组排序函数1 row_number() over([partition by col1] [order by col2]) 1 2 3 2 rank() over([partition col1][order by col2]) 1 ...

2022-01-10 11:52:07 198

原创 sparkstreaming读取kafka消息的两种方式

sparkstreaming 消费kafka数据的 kafkautil 提供两种创建dstream的方法:1 老版本的createStream方法2 新版本的createDirectStream方法通过createDirectStream方法创建出来的dstream的rdd partition 和 kafka 的topic的partition是一一对应的,通过低阶API直接从kafka的topic消费消息,并行计算效率高,默认将偏移...

2022-01-06 17:04:44 1120

原创 shell

1$# 输入参数的个数2 $? 最后命令的返回值

2021-12-15 17:03:39 106

原创 hive脚本开发

#!/bin/bashsourceName=$1writeName=$2dt=$3dtValue=$4hive -e "set spark.app.name=clean_distinct_transfer_dept;set spark.executor.instances=5;set spark.executor.memory=10g;set spark.executor.cores=2;set spark.driver.memory=8g;insert overwrite table.

2021-12-07 14:27:13 529

原创 schedule

1 理想情况下,应用对Yarn资源的请求应该立刻得到满足,但现实情况往往资源是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能得到相应的资源。2 在yarn中负责给应用分配资源的就是schedule3 yarn 架构 1 Resource Manager(RM) : 1 构成: ① Schedule ...

2021-12-01 18:39:24 1255

原创 sqoop 脚本配置

#!/bin/bashecho "`date`"' - Begin import table: dhc-app.or_anaesthesia_incr'import_log_file=$1inner_report_file=$2export HADOOP_CLIENT_OPTS="-Xmx1g $HADOOP_CLIENT_OPTS"hive -e "drop table if exists nfyy_dhcapp_20210422_1_incr.or_anaesthesia;"/bigda.

2021-11-30 18:17:46 478

原创 数据采集工具调研

sqoop 1 采用map-reduce计算框架进行导入导出,采用map-reduce框架同时在多个节点进行import或者export操作 2 用于 关系型数据库和hadoop组件之间进行数据迁移 , 不支持hadoop相关库组件、rdbms之间数据抽取操作 3 对hadoop支持度好 4 sqoop只支持官方提供的指定几种关系型数据库和hadoop组件之间的数据交换 5 数据库同步两种方式,1,JDBC的连接 √ 2,使用数据库提供的工具 ...

2021-11-30 18:03:50 213

原创 dbeaver

1dbeaver简介DBeaver是一个集成的数据库客户端工具。提供一个图形界面用来查看数据库结构、执行SQL查询和脚本,浏览和导出数据等等。2使用环境及连接配置 2.1使用环境Windows环境 2.2连接配置配置说明:1 文件->新建2 依次按照下面截...

2021-11-30 17:19:32 3446 2

原创 hdfs 跨集群数据迁移

distcp#!/bin/bashDB=$1#获取hive表定义ret=$(hive -e "use ${DB};show tables;"|grep -v _es|grep -v _hb|grep -v importinfo)for tem in $ret;do echo $tem if [ "$tem" != "tab_name" ];then hive -e "use ${DB};show create table $

2021-11-29 14:58:32 843

原创 Hbase

Hbase 是由三种类型的server组成的主从式(master-slave)架构:1 几个角色: 1 Region server 负责处理数据的读写请求,客户端请求数据时直接和Region server交互 2 Hbase Master 负责Region的分配,DDL(创建、删除table)等操作 3 Zookeeper,作为Hadoop的一部分,负责集群状态的维护2 关于数据存储: 1 Hadoop DataNode 负责存...

2021-11-22 10:18:07 1253

原创 大数据质量解决方案

GriffinApache Griffin 定位为大数据的数据质量监控工具,支持多种批处理数据源,其中支持hive就已经解决了在数仓领域遇到的数据质量控制的场景问题。1 解决 数据质量监控 的思路: 模型驱动,基于目标数据集合或者源数据集,用户可以选择不同的数据质量维度来执行目标数据质量的验证。2 支持两类数据源 1 批数据 2 准实时数据3 可以做到的监控 1 度量 精确度、完整性、及...

2021-11-19 17:43:32 1850

原创 数据湖三剑客 Hudi、Delta、Iceberg

数据湖三剑客 Hudi、Delta、Iceberg

2021-11-19 16:27:00 516

原创 MPP架构设计

MPP 即大规模并行处理(Massively Parallel Processor)。 1 在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统 2 业务数据根据数据库模型 和 应用特点划分到各个节点上 3 每台数据节点通过专用网络互相连接,彼此协同计算,作为整体提供数据库服务优点: 1 非共享数据库集群有完全的 可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。 2 通过并行查询处理来提...

2021-11-19 16:01:48 820

原创 增量合并全量

insert overwrite table nfyy_tn_20210228_1_union.mr_observations PARTITION(dt='2021-03-01')(select obs_updatehospital_dr,obs_consult_dr,obs_ispartogram from nfyy_dhcapp_20210228_1_full.mr_observations awhere 0=(select count(1) from nfyy_dhcapp_20210301_.

2021-11-18 17:43:50 353

原创 集群运维脚本

集群运维的几个脚本:1 xcall.sh#! /bin/bashfor i in nfcls8 nfcls7 nfcls6 nfcls5 nfcls4 nfcls3 nfcls2 do echo --------- $i ---------- ssh $i "source /etc/profile;$*" done2 xsync.sh#!/bin/bash#1 获取输入参数个数,如果没有

2021-11-18 11:40:10 170

原创 hive 工作总结2

1 hive 的文件存储格式TEXTFILE SEQUENCEFILE AVRO RCFILE ORC PARQUET 1 分类 面向行的: TEXTFILE、SEQUENCEFLIE、AVRO 面向列的 RCFILE、ORC、PARQUET 2 两种分类的区别 ...

2021-11-18 11:18:55 686

原创 hive 工作总结1

hive 优化数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行1 hive本身参数的配置优化: 1 针对小文件过多的配置: 输入、输出端合并 输入:更改hive的输入文件格式,参数名称是 hive.input.format 默认值是org.apache.hadoop.hive.ql.io.HiveInputF...

2021-11-17 17:21:12 211

原创 hive架构及工作原理

1 hive架构1.1 组成及作用用户接口: clientcli(hive shell)、jdbc/ODBC(java访问hive)、webUI(浏览器访问hive) 元数据meta store 表所属的数据库 表名 列、分区字段 表的类型 表所在的数据目录 注:默认存储在自带的Derby数据库中,一般使用mysql出处Metastore 底层存储: HDFS 计算:MapReduce 驱动器Driver:接收/响应客户端请求 解..

2021-11-17 15:11:24 230

原创 Presto

1 presto概述 presto 是 分布式 SQL 查询引擎2 核心概念协调者coordinator 解析语句 规划查询 管理work节点 使用REST API与work节点通信,从work节点获取结果并最终返回给客户端 工作者 work 执行任务 处理数据 从connector获取数据并相互交换中间数据 work工作进程启动时 ,它会将自己告诉 协调器 中的 发现服务服务器discover,...

2021-11-16 17:58:39 116

原创 hive 字段构造map结构

01 构建字符串 k:v 结构 字段处理:concat_ws(',',collect_list(concat_ws(':',ht.data_column,ht.data_value)))) 效果:"key1:100,key2:200,key3:300,..."02 字符串 k:v结构转为map结构字段处理:str_to_map(concat_ws(',',collect_list(concat_ws(':',ht.data_column,...

2021-11-05 18:41:33 2374

原创 VMware 虚机启动失败问题

环境: 1win10家庭版问题1: 虚拟化未开启:VMware Workstation 与 Device/Credential Guard 不兼容!解决办法: 1.首先保证主板已经开启虚拟化 2.看此原文链接https://blog.csdn.net/luckysign/article/details/101915064Win10家庭版解决方法:1、按下WIN+R打开运行,然后输入ser...

2020-10-24 16:48:28 2275

原创 Cleaning up unclosed ZipFile for archive

打包时报错:Cleaning up unclosed ZipFile for archive错误原因:maven打包时内存配置不够用解决: 1、自定义配置打包命令,在其中配置“”

2020-08-12 09:59:04 8143

原创 ERROR spark.SparkContext: Error initializing SparkContext org.apache.hadoop.security.AccessControlEx

问题截图:发现是普通用户xy对 /user节点没有写权限,于是使用chmod命令给该节点添加权限。

2020-08-06 11:14:18 523

原创 不良 : Cloudera Manager Agent 的日志目录位于可用空间小于 1.0 吉字节 的文件系统上。 /var/log/cloudera-scm-agent(可用:434.8 兆字节 (

问题现象: 不良 : Cloudera Manager Agent 的日志目录位于可用空间小于 1.0 吉字节 的文件系统上。 /var/log/cloudera-scm-agent(可用:434.8 兆字节 (0.86%),容量:49.1 吉字节)解决: 挂载问题 可以参考,这篇博客做思考调整“/dev/mapper/VolGroup-lv_root”目录的大小: ...

2020-08-05 17:58:32 1538

原创 httpd服务引出的问题

No such file or directory: AH01597: could not open mime types config file /etc/httpd/conf/mime.types. AH00016: Configuration Failed find文件 cp到指定目录下 /usr/sbin/httpd: error while loading shared libraries: libaprutil-1.so.0: cannot open shared object.

2020-07-22 15:29:36 588

原创 时钟同步引起的yum源问题

问题引出:在配置crontab时发现没有这个服务,所以安装crontab,但是安装中出现“no package crontab available.”,于是开始配置本地yum源 在/etc/yum.repos.d 目录下: 删除所有文件 在阿里云下载yum源包: wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-6.repo 清除yum缓存 ​ yum clean all .

2020-07-21 11:14:59 226

转载 IntelliJ IDEA 下载安装以及破解--引用

https://blog.csdn.net/qq_36318234/article/details/80502957

2018-08-14 15:24:49 209

原创 Linux 文件乱码

其他文件打开能正常显示,某个文件出现乱码,可以应用底行模式键入 set fileencoding=utf-8 得以解决。

2018-08-08 09:57:46 3187

原创 zookeeper集群搭建--启动集群报错记录

启动的顺序是slave-01>slave-02>slave-03,由于ZooKeeper集群启动的时候,每个结点都试图去连接集群中的其它结点,先启动的肯定连不上后面还没启动的,所以上面日志前面部分的异常是可以忽略的。通过后面部分可以看到,集群在选出一个Leader后,最后稳定了。其他结点可能也出现类似问题,属于正常! zookeeper集群搭建参考博客:https://bl...

2018-08-02 17:46:15 433

转载 git冲突解决方法

转载 http://blog.csdn.net/afeionepiece/article/details/45695411  关于 git 的基本使用,可以参考 git-简易指南,这篇介绍了git的基本使用,但是对多人协作的时候,合并冲突的解决没有详细的介绍。本文结合自己使用的场景进行介绍 使用场景:用户A和B在不同的电脑协同工作,使用github进行代码托管,使用仓库se...

2017-10-26 17:14:29 8533 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除