自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 dolphinscheduler简介

dolphinscheduler 3.x 主流程源码

2022-09-13 21:14:08 346 1

原创 Debezium系列- snapshot锁表流程详解

背景采用Debezium 同步MySQL表的时候,同一张表有时候有时会锁表,有时不会锁表。为了弄清楚原因梳理了snapshot的流程snapshot 流程图如何排查Debezium锁问题引起的主从延迟?谁持有的锁?继续查询information_schema.innodb_locks、innodb_lock_waits、innodb_trx表select * from information_schema.innodb_locks;select * from information_schem

2020-10-19 10:08:47 3532

原创 Debezium系列- snapshot写入慢采坑记录

问题描述测试集群使用Debezium snapshot一张 2000多万的表耗时 40多分钟,使用线上集群snapshot 耗时 6小时51分钟,线上集群snapshot慢了10倍问题分析测试集群和线上集群不同测试集群kafka单个broker,线上集群3个broker每个broke挂4个盘测试集群默认创建topic Replicas=1,线上集群 Replicas=2排查过程开始怀疑是线上磁盘可能有坏道导致写入慢,联系运维排查磁盘OK。有点怀疑是副本数的问题,由于对kafka有一定的了解

2020-10-13 15:32:04 1560

原创 Debezium系列- kafka connet debug

背景使用Debezium采集MySQL Binlog 集成到Hive中,采坑(一)(二) 中对问题的猜想还没得到证实,又发现了 Debezium 采集 MySQL 时间转换时间错乱问题,关于时间错乱问题后续文章中会详细分析,于是走上kafka connect的debug之路。原理根本原理就是利用远程debug 模式:服务端远程开启debug模式,本地链接远程端口调试集合。但是如何开启呢?下面将细细道来开启过程服务端开启debug哈哈!!!其实开启 debug 模式很简单,在$confluent_

2020-08-25 15:21:46 874

原创 Debezium系列-Confluence 集成debezium hdfs-sink 将binlog导入Hive

环境准备L必须有docker环境环境中必须有zookeeper、kafka、MySQL、kafka-connector镜像confluentinc-kafka-connect-hdfs-5.5.1.zip 插件confluentinc-kafka-connect-hdfs-5.5.1.zip下载地址:https://www.confluent.io/hub/confluentinc/kafka-connect-hdfsTip:如果之前有启动过这几个docker镜像的, kafka和kafka-

2020-08-25 14:23:53 835 1

原创 Debezium系列-Debzium MySQL Binlog 集成到Hive 坑(二)

采集配置{ "name": "avro-inventory-customers", "config": { "connector.class": "io.debezium.connector.mysql.MySqlConnector", "tasks.max": "1", "database.hostname": "psd-hadoop039", "database.port": "3306", "databa

2020-08-25 11:36:54 704

原创 Debezium系列-Debzium MySQL Binlog 集成到Hive 坑(一)

环境说明kakfa 2.5debezium-debezium-connector-mysql-1.2.0confluentinc-kafka-connect-hdfs-5.5.1( hadoop 2.x 的)Debzium Binlog connector 采集配置{ "name": "json-inventory-customers", "config": { "connector.class": "io.debezium.connector.mysql.My

2020-08-04 18:44:17 1432

原创 Debezium系列-Debezium Docker 快速入门

本文使用debezium 1.2,没有太多的干货,废话不多说,上来就开干,先来个Getting Started ! 快乐一下! 官方文档 , Getting Started 是基于docker的没有docker环境的小伙伴先自行准备。为了方便快速部署,将docker命令搬运过来,docker命令添加了参数: -dzookeeperdocker run -d -it --rm --name zookeeper -p 2181:2181 -p 2888:2888 -p 3888:3888 debezium

2020-07-21 16:02:57 3055

原创 Debezium系列-数据库日志变更的CDC简单对比

背景1)sqoop 同步的一些不足实时性低增量同步,无法同步物理删除的记录有些表是有修改没有修改时间字段,或者不维护修改时间字段,及时数据量很大也没办法增量同步数据同步时读取数据库产生大量的IO2)用户越来越渴望实时性的数据基于数据日志变更的CDC简单对比目前了解组件有 maxwell、canal、debezium、flinkx (如果还要别的欢迎留言补充)组件CanalMaxwellDebeziumFlinx开源方阿里zendeskredhat袋鼠云

2020-07-20 14:10:11 2593 3

原创 sqoop系列-增量优化 fecth-size填坑记

用户表6月3、8、9号 在核心项目启动前导入未就绪导入明显比平时长3号出现超时是排查发现该表为全量导入,当时联系业务开发添加增量字段索引,业务开发答复10号左右上线新版本添加,9号添加了version索引,9号添加索引后将导入改为增量导入,这里有个坑,以前正常情况下增量的字段id自增或者修改时间戳,但是version时段是一个bigint类型的时间戳并不是timestamp,使用lastmodify 方式无法增量,只能使用 append 方式,配置如图验证配置无问题,但是导入耗时还是很久 83m

2020-06-09 15:48:45 1711

原创 Oozie系列-Action失败重试,不生效排查

失败重试问题描述项目中配置了 retry-max=“3” retry-interval=“2” 但是任务error并不重试。workflow的xml配置如下<workflow-app name="etl_ds_hive2_action-${etl_name}" xmlns="uri:oozie:workflow:0.5"> <start to="hive2_act...

2020-05-07 10:00:46 783

原创 HBase系列-合并Region

背景随着接入的业务增多和单业务数据量的增大,hbase的region数量迅速增长。hbase中RegionServer管理的region数量是有上限建议的,参见 HBase系列-RegionServer管理region数量上限如何应对region个数不断增加带来的风险成为面临的一个问题。想到2决方案添加hbase集群的机器数量,从而减少每个RegionServer管理的region数量...

2020-05-06 17:51:58 508

原创 sqoop系列-sqoop MySQL 导入Hive JSON 字段乱码

问题简介最近业务方反馈依照导入MySQL表导入Hive有部分字段变更乱码,于是乎走上了解决乱码的不归路。集群信息服务器系统版本:centos 7.2cdh 版本:cdh5.9.0hadoop 版本:2.6.0+cdh5.9.0hive 版本:1.1.0+cdh5.9.0sqoop 版本:1.4.6+cdh5.9.0备注:涉及敏感信息的的变量,使用${xxxx} 代替问题定位首先...

2020-02-21 15:33:52 1792 4

原创 HBase系列-RegionServer管理region数量上限

RegionServer管理region数量上限在生产场景中,如果拥有大量数据,通常会关注每台服务器可以拥有的最大region数。region的最大数量主要由memstore内存使用量决定。每个region都有自己的memstore,memstore大小可配置,通常在128-256 MB范围内,请参阅hbase.hregion.memstore.flush.size。每个列族存在一个memsto...

2019-04-10 17:37:58 3137

原创 Atlas系列-Apache Atlas 独立部署和HA

用编译集成的hbase和sorl部署的apache atlas请参见之前的文章:Atlas系列-编译部署 此次介绍的是 集成以独立部署好的 kakfa,solr,hbase的部署方式 本次部署包含一下六部分:apache atlas 独立部署编译solr集群部署,集成到apache atlas集成已有HBase集群,集成已有kafka集群apache atlas的HAhive h...

2018-08-25 10:16:53 8514 17

原创 cloudera-manager系列-指定jdk的集中方式

所有机器方式如图: 操作如图所示点击主机下拉框选取所有主机,并单击转跳到新页面后,点击配置转调到新页面后,在检索框中输入:java在java主目录中配置JAVA_HOME 所在的位置点击保存更改备注:配置这个之前确定集群中每台机器安装好要配置的jdk版本这个配置会覆盖安装cloudrea-manager时指定的JDK版本,并对cloudrea-man...

2018-07-06 09:10:47 1619

原创 Atlas系列-编译部署

Apache Atlas 简介Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。最新版本为Apache Atlas 1.0 官网链接:http://atlas.apache.org/1.0.0/index.html 官网没提供编译好...

2018-07-02 19:27:42 4344 7

原创 oozie系列-Java action 输出变量下一级action调用

步骤描述workflow xml 配置java 代码输出workflow xml 配置备注: 必须添加 &lt;capture-output/&gt;&lt;workflow-app xmlns='uri:oozie:workflow:0.1' name='java-wf'&gt; &lt;start to='java1' /&gt; &lt;acti...

2018-06-14 19:50:50 1406

原创 sqoop系列-sqoop MongoDB导入Hive方案

方案最近数据异构的项目时需要将MongoDB的数据导入Hive数据仓库中,总结了下,得出一下四种导入方案 1. mongoexport json文件导入 2. mongoexport csv文件导入 3. hive映射mongo库 4. mongodump bson 导入mongoexport json文件导入缺点:mongo导出的json文件中,存在“$”符号,这...

2018-06-09 10:05:21 10767 15

转载 UML类图几种关系的总结

简介最近工作需要复习了下UML类图,觉得这文章总结的不错,copy下来留念。 在UML类图中,常见的有以下几种关系: 泛化(Generalization), 实现(Realization),关联(Association),聚合(Aggregation),组合(Composition),依赖(Dependency)。泛化(Generalization)【泛化关系】:是一种继承关系,表示...

2018-06-09 08:46:34 333

原创 sqoop系列-TextSplitter踩坑记

问题简介今天早上在数据异构项目中导入添加一个mysql导入hive任务,添加后跑任务,任务执行完,界面日志无报错。但是hive中并没生成对应的表。初步定位脚本执行报错,但是没有返回到界面。 备注:涉及敏感信息的的变量,使用${xxxx} 代替问题定位sqoop导入命令如下sqoop import -Dorg.apache.sqoop.splitter.allow_te...

2018-06-05 18:59:26 3917 5

原创 sqoop系列-MySQL导入HIVE时间格问题

问题描述今天早上在做 sqoop MySQL 导入hive数据测试时发现 MySQL 中datetime和timestamp类型的数据导入hive时,选择不同的文件存储格式,会导致导入hive 后字段类型不一致。针对 MySQL 时间类型:datetime,date,time,timestamp 做了如下测试, 备注:涉及敏感信息的的变量,使用${xxxx} 代替MySQL 数据信息...

2018-05-30 18:53:21 7915 4

原创 Hive系列-unix_timestamp 问题

问题描述环境测试集群 服务器系统版本:centos 7.2 hadoop 版本:2.6.0+cdh5.9.0 hive 版本:1.1.0+cdh5.9.0 nodeManger 节点:cdh003,cdh004, cdh005, cdh006 HiveServer2 节点:cdh001, cdh003,cdh004, cdh005, cdh006需求:xxx_detail_inc...

2018-05-30 09:55:52 8333 8

原创 oozie系列-oozie简介

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...

2018-05-22 19:05:56 924

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除