Flink CDC + Hudi + Hive + Presto构建实时数据湖最佳实践

b9143cfcf35b9a5ba2d507e1f6901e96.png

1. 测试过程环境版本说明

Flink1.13.1

Scala2.11

CDH6.2.0

Hadoop3.0.0

Hive2.1.1

Hudi0.10(master)

PrestoDB0.256

Mysql5.7

2. 集群服务器基础环境

2.1 Maven和JDK环境版本

5cdba293438e19ef5fc3991da9efdf5f.png

2.2 Hadoop 集群环境版本

abdcf8742904d5edd6dc0835496f8ff1.png

2.3 HADOOP环境变量配置

export HADOOP_HOME=/opt/cloudera/parcels/CDH/lib/hadoop
export HADOOP_CALSSPATH=`$HADOOP_HOME/bin/hadoop classpath`

3. Hudi编译环境配置

3.1 Maven Home settings.xml配置修改

说明:指定aliyun maven地址(支持CDH cloudera依赖) mirror库

e30dec31fa7352204e594bdeab3a7946.png

<mirrors>
<mirror>
<id>alimaven</id>
<mirrorOf>central,!cloudera</mirrorOf>
<name>aliyun maven</name>
<url>http://maven.aliyun.com/nexus/content/groups/public/</url>
</mirror>
</mirrors>

3.2 下载Hudi源码包

git clone https://github.com/apache/hudi.git

9375e10314b967875a03c68da29430c6.png

Hudi社区建议版本适配

hudi0.9 适配 flink1.12.2

hudi0.10(master) 适配 flink1.13.X ( 说明master分支上版本还未release)

3.3 Hudi 客户端命令行

d0a14c660306a40655a719159f818e54.png

3.4 修改Hudi集成flink和Hive编译依赖版本配置

hudi-master/packaging/hudi-flink-bundle

7c91c983b78847a5b1334c67c86099d2.png

pom.xml文件 ( 笔者环境CDH6.2.0 hive2.1.1)

147c1a7a0bdc96d42d0fbd63b438e897.png

<profile>
<id>flink-bundle-shade-hive2</id>
<properties>
<hive.version>2.1.1-cdh6.2.0</hive.version>
<flink.bundle.hive.scope>compile</flink.bundle.hive.scope>
</properties>
<dependencies>
<dependency>
<groupId>${hive.groupid}</groupId>
<artifactId>hive-service-rpc</artifactId>
<version>${hive.version}</version>
<scope>${flink.bundle.hive.scope}</scope>
</dependency>
</dependencies>
</profile>

3.5 编译Hudi 指定Hadoop和Hive版本信息

mvn clean install -DskipTests-Drat.skip=true-Dscala-2.11-Dhadoop.version=3.0.0-Pflink-bundle-shade-hive2

(可加 –e –X 参数查看编译ERROR异常和DEBUG信息)

说明:默认scala2.11、默认不包含hive依赖

8a4ba00431daf9d0b6ab7f23e82b30c8.png

首次编译耗时较长 笔者首次编译大概花费 50min+(也和服务器网络有关)

后续编译会快一些 大约15min左右

3.6 Hudi编译异常

27be3b0b0f4b402a4030264ee7969628.png

1f16681f0892d1c1cb1258d18c4bf9dc.png

修改Hudi master pom.xml 增加 CDH repository地址

015f01e6cfe67c5861274cd28e233c44.png

3.7 Hudi重新编译

e25d1ab53a80ca21d3454b6a2cc62804.png

3.8 Hudi编译结果说明

hudi-master/packaging/hudi-flink-bundle/target

3ab864556deb620dd5af2c7ea9d88993.png

hudi-flink-bundle_2.11-0.10.0-SNAPSHOT.jar

说明:hudi-flink-bundle jar 是 flink 用来写入和读取数据

hudi-master/packaging/hudi-hadoop-mr-bundle/target

636826b922cfb5b5e960b76cb0b5fb6f.png

hudi-hadoop-mr-bundle-0.10.0-SNAPSHOT.jar

说明:hudi-mr-bundle jar 是 hive 需要用来读hudi数据

4. Flink环境配置

版本说明:Flink 1.13.1 scala2.11版本

4.1 FLINK_HOME 下 sql-client-defaults.yaml 配置

d64d84a6083315b70108b0697db51557.png

4.2 flink-conf.yaml配置修改

e9f62d4f214c20b9847c958eec65ce16.png

0ec8734970b37698304ddb9fe552c47f.png

# state.backend: filesystem
state.backend: rocksdb
# 开启增量checkpoint
state.backend.incremental: true
# state.checkpoints.dir: hdfs://namenode-host:port/flink-checkpoints
state.checkpoints.dir: hdfs://nameservice/flink/flink-checkpoints
classloader.check-leaked-classloader: false
classloader.resolve-order: parent-first

4.3 FLINK_HOME lib下添加依赖

8181c41ea1cef55f869bc80bba4acb38.png

flink-sql-connector-mysql-cdc-1.4.0.jar
flink-sql-connector-oracle-cdc-2.1-SNAPSHOT.jar.BAK – oracle cdc 依赖 
flink-format-changelog-json-1.4.0.jar
flink-sql-connector-kafka_2.11-1.13.1.jar
--- Hadoop home lib下copy过来
hadoop-mapreduce-client-common-3.0.0-cdh6.2.0.jar
hadoop-mapreduce-client-core-3.0.0-cdh6.2.0.jar
hadoop-mapreduce-client-jobclient-3.0.0-cdh6.2.0.jar
--- hudi编译jar copy过来
hudi-flink-bundle_2.11-0.10.0-SNAPSHOT.jar

说明:目前oracle cdc jar和mysql cdc jar一起在lib下发现有冲突异常

5 启动flink yarn session服务

5.1 FLINK_HOME shell 命令

$FLINK_HOME/bin/yarn-session.sh -s 2-jm 2048-tm 2048-nm ys-hudi01 -d

71afddb0a3fb7b5c1f79f5ddabf53167.png

5.2 Yarn Web UI

d161131d88f27ea7c5762bc75630978b.png

5.3 Flinksql Client 启动命令

$FLINK_HOME/bin/sql-client.sh embedded -j ./lib/hudi-flink-bundle_2.11-0.10.0-SNAPSHOT.jar shell

说明:-j指定hudi-flink 依赖jar

12be1ae9c618b9d994b38e7bb8a5c473.png

Show table /show catalogs

3db132182ba874b1134be84b718d3289.png

6. MySQL binlog 开启配置

6.1 创建binlog日志存储路径

mkdir logs

6.2 修改目录属主和group

chown -R mysql:mysql /mysqldata/logs

6.3 修改mysql配置信息

vim /etc/my.cnf
server-id=2
log-bin= /mysqldata/logs/mysql-bin
binlog_format=row
expire_logs_days=15
binlog_row_image=full

6.4 修改完,重启mysql server

service mysqld restart

6.5 客户端查看binlog日志情况

show master logs;

1b29c3c5f67918a8076278ee94322453.png

Mysql 版本:5.7.30

206f7edbc3a7d814c266de86e7085845.png

5.6 创建mysql sources 表 DDL

create table users_cdc(
   id bigint auto_increment primary key,
   name varchar(20) null,
   birthday timestamp default CURRENT_TIMESTAMP notnull,
   ts timestamp default CURRENT_TIMESTAMP notnull
);

1d7b7e2cf4ae7fe5fa12b37256e3727b.png

7. FlinkCDC sink Hudi测试代码过程

7.1 Flink sql cdc DDL 语句:(具体参数说明可参考flink官网)
CREATE TABLE mysql_users (
    id BIGINT PRIMARY KEY NOT ENFORCED ,
    name STRING,
    birthday TIMESTAMP(3),
    ts TIMESTAMP(3)
) WITH (
'connector'= 'mysql-cdc',
'hostname'= '127.0.0.1',
'port'= '3306',
'username'= '',
'password'=’’,
'server-time-zone'= 'Asia/Shanghai',
'debezium.snapshot.mode'='initial',
'database-name'= 'luo',
'table-name'= 'users_cdc'
);

5b04a49f6fd5201a21fe6694c723a130.png

7.2 查询mysql cdc 表

Flink SQL> select * from mysql_users;

23179155068ecedd63532ac73ebbcf66.png

由于目前MySQL users_cdc表是空,所以flinksql 查询没有数据 只有表结构;

8491704b95b2bb707f608d19bedfe57a.png

Flink web UI:

95f64cf54e2182c88eafcd1cb7fdde8b.png

ce61903a5b63d49455fb67c4567bb6bd.png

7.3 创建一个临时视图,增加分区列 方便后续同步hive分区表

Flink SQL> create view mycdc_v AS SELECT *, DATE_FORMAT(birthday, 'yyyyMMdd') as partition FROM mysql_users;

说明:partition 关键字需要 `` 引起来

2a38c1a60a4a06d0f5f5b5d8df0df61e.png

查询视图数据也是空结构,但增加了分区字段:

Flink SQL> select * from mycdc_v;

4185cb2f6c885d1ccd1206142d672aad.png

40c3a60b3f10cedfa66d89564b83e73a.png

Flink web UI:

f92557db8c1ac55272548899efb1a18e.png

7.4 设置checkpoint间隔时间,存储路径已在flink-conf配置设置全局路径

建议:测试环境 可设置秒级别(不能太小),生产环境可设置分钟级别。

Flink SQL> set execution.checkpointing.interval=30sec;

772a82d6771a5a676785a74cda438476.png

7.5 Flinksql 创建 cdc sink hudi文件,并自动同步hive分区表DDL 语句

CREATE TABLE mysqlcdc_sync_hive01(
id bigint ,
name string,
birthday TIMESTAMP(3),
ts TIMESTAMP(3),
`partition` VARCHAR(20),
primary key(id) not enforced --必须指定uuid 主键
)
PARTITIONED BY (`partition`)
with(
'connector'='hudi',
'path'= 'hdfs://nameservice /luo/hudi/mysqlcdc_sync_hive01'
, 'hoodie.datasource.write.recordkey.field'= 'id'-- 主键
, 'write.precombine.field'= 'ts'-- 自动precombine的字段
, 'write.tasks'= '1'
, 'compaction.tasks'= '1'
, 'write.rate.limit'= '2000'-- 限速
, 'table.type'= 'MERGE_ON_READ'-- 默认COPY_ON_WRITE,可选MERGE_ON_READ 
, 'compaction.async.enabled'= 'true'-- 是否开启异步压缩
, 'compaction.trigger.strategy'= 'num_commits'-- 按次数压缩
, 'compaction.delta_commits'= '1'-- 默认为5
, 'changelog.enabled'= 'true'-- 开启changelog变更
, 'read.streaming.enabled'= 'true'-- 开启流读
, 'read.streaming.check-interval'= '3'-- 检查间隔,默认60s
, 'hive_sync.enable'= 'true'-- 开启自动同步hive
, 'hive_sync.mode'= 'hms'-- 自动同步hive模式,默认jdbc模式
, 'hive_sync.metastore.uris'= 'thrift://hadoop:9083'-- hive metastore地址
-- , 'hive_sync.jdbc_url'= 'jdbc:hive2://hadoop:10000'-- hiveServer地址
, 'hive_sync.table'= 'mysqlcdc_sync_hive01'-- hive 新建表名
, 'hive_sync.db'= 'luo'-- hive 新建数据库名
, 'hive_sync.username'= ''-- HMS 用户名
, 'hive_sync.password'= ''-- HMS 密码
, 'hive_sync.support_timestamp'= 'true'-- 兼容hive timestamp类型
);
说明:Hudi目前支持MOR和COW两种模式

(1) Copy on Write:使用列式存储来存储数据(例如:parquet),通过在写入期间执行同步合并来简单地更新和重现文件

(2) Merge on Read:使用列式存储(parquet)+行式文件(arvo)组合存储数据。更新记录到增量文件中,然后进行同步或异步压缩来生成新版本的列式文件。

COW:Copy on Write (写时复制),快照查询+增量查询

MOR:Merge on Read (读时合并),快照查询+增量查询+读取优化查询(近实时)

使用场景上:

(1)COW适用写少读多的场景 ,MOR 适用写多读少的场景;

(2)MOR适合CDC场景,更新延迟要求较低,COW目前不支持 changelog mode 不适合处理cdc场景;

39ae9ee10eba3c38e501614dcfe436b7.png

61625fdb5b21d96b66ad15e85e8cf580.png

Flink web UI

06fd765532abe9bb9a83f604e12421da.png

7.6 Flink sql mysql cdc数据写入hudi文件数据

Flink SQL> insert into mysqlcdc_sync_hive01 select id,name,birthday,ts,partition from mycdc_v;

5105fa8a5c51a82c185ee5729513a10e.png

Flink web UI DAG图:

dd6c61a241e1e456e67dfecf13f17125.png

7.7 HDFS上Hudi文件目录情况

530eb2a81305f09206e5e35a6ca1606c.png

6e1eb42c1bf42e79e9403e21f546d738.png

说明:目前还没写入测试数据,hudi目录只生成一些状态标记文件,还未生成分区目录以及.log 和.parquet数据文件,具体含义可见hudi官方文档。

7.8 Mysql数据源写入测试数据

insert into users_cdc (name) values ('cdc01');

c0f1d380e5907c69a1a017a3e0859e29.png

7.9 Flinksql 查询mysql cdc insert数据:

Flink SQL> set execution.result-mode=tableau;

[WARNING] The specified key 'execution.result-mode' is deprecated. Please use 'sql-client.execution.result-mode' instead.

[INFO] Session property has been set.

Flink SQL> select * from mysql_users; -- 查询到一条insert数据

b7b8d555272b233d3b0b35f697895666.png

7.10 Flink web UI页面可以看到DAG 各个环节产生一条测试数据

5cb48cfa3c3f26ee025b2940b77ac34c.png

7.11 Flinksql 查询 sink的hudi表数据

Flink SQL> select * from mysqlcdc_sync_hive01; --已查询到一条insert数据

56a5c1e8c2f481c38f880431219b4694.png

7.12 Hdfs上Hudi文件目录变化情况

eaf8473a815048b352c47f961cef16a1.png

7.13 Hive分区表和数据自动同步情况

b782c4f815a6aba1ca8d5b0619d22787.png

7.14 查看自动创建hive表结构

hive> show create table mysqlcdc_sync_hive01_ro;

7135f7ba1aa7cf29713c89d0ac08b772.png

hive> show create table mysqlcdc_sync_hive01_rt;

bd0bc7b84c7f73c9eb1a75ec78162f74.png

7.15 查看自动生成的表分区信息

hive> show partitions mysqlcdc_sync_hive01_ro;

hive> show partitions mysqlcdc_sync_hive01_rt;

fd35cef52593d08058801fdfb29fcdd5.png

说明:已自动生产hudi MOR模式的

mysqlcdc_sync_hive01_ro

mysqlcdc_sync_hive01_rt

ro表和rt表区别:

ro 表全称 read oprimized table,对于 MOR 表同步的 xxx_ro 表,只暴露压缩后的 parquet。其查询方式和COW表类似。设置完 hiveInputFormat 之后 和普通的 Hive 表一样查询即可;

rt表示增量视图,主要针对增量查询的rt表;

ro表只能查parquet文件数据, rt表 parquet文件数据和log文件数据都可查;

7.16 Hive访问Hudi数据

说明:需要引入hudi-hadoop-mr-bundle-0.10.0-SNAPSHOT.jar

引入Hudi依赖jar方式:

(1) 引入到 $HIVE_HOME/lib下;

(2) 引入到$HIVE_HOME/auxlib 自定义第三方依赖 修改 hive-site.xml配置文件;

(3) Hive shell命令行引入 Session级别有效;

其中(1)和(3)配置完后需要重启 hive-server服务;

查询Hive 分区表数据:

hive> select * from mysqlcdc_sync_hive01_ro; --已查询到mysq insert的一条数据

e91890d4d397279a3a0545e3ae247796.png

hive> select * from mysqlcdc_sync_hive01_rt; --已查询到mysq insert的一条数据

74926a087a723af1bcb4925877395147.png

Hive 条件查询:

hive> select name,ts from mysqlcdc_sync_hive01_ro where partition='20211109';

8e6675a7743dc51bae9a5ae946fd46cd.png

Hive ro表 count查询

hive> select count(1) from mysqlcdc_sync_hive01_ro;

a958fe519420137831a713807d9f35d5.png


Hive Count异常解决:

引入hudi-hadoop-mr-bundle-0.10.0-SNAPSHOT.jar依赖

hive> add jar hdfs://nameservice /luo/hudi-hadoop-mr-bundle-0.10.0-SNAPSHOT.jar;

hive> set hive.input.format = org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat;

0a4666c577a803d533ece548ea438366.png


hive> select count(1) from mysqlcdc_sync_hive01_ro; --可正常count

dae8bbda8019f6588c417a07441772b2.png


Hive rt表 count查询

hive> select count(1) from mysqlcdc_sync_hive01_rt;

3f2b57eeb552117234eee8fcd7aea175.png

说明:rt 表count 还是异常,和Hudi社区人员沟通hudi master目前还没release这块存在bug正在修复中

具体见:https://issues.apache.org/jira/browse/HUDI-2649

7.17 Mysql 数据源写入多条测试数据

insert into users_cdc (name) values ('cdc02');
insert into users_cdc (name) values ('cdc03');
insert into users_cdc (name) values ('cdc04');
insert into users_cdc (name) values ('cdc05');
insert into users_cdc (name) values ('cdc06');

56c07706a02d770d332f39fcc1963dc2.png


Flink web UI DAG中数据链路情况:

233e065d0efa7c5727d05ba06d04eb87.png

7.18 Flinksql中新写入数据查询情况

30742dccaf13c51dff96296ea81719da.png

Yarn web UI application_1626256835287_40351[1]资源使用情况

bd9edc8e743b1cabfa688697221e50b7.png


Hdfs上Hudi文件目录变化情况

37fb7882ac1b3c2545d75d3b50f7b88f.png


Hudi状态文件说明:

(1)requested:表示一个动作已被安排,但尚未启动

(2)inflight:表示当前正在执行操作

(3)completed:表示在时间线上完成了操作

Flink jobmanager log sync hive过程详细日志

66fff045bac61942656feb1001851614.png


c84ac039a5f5eb43a3e83ea98b6be744.png


eb438385e57ed773de9378860cbb5118.png


7.19 Mysql 数据源更新数据

update users_cdc set name = 'cdc05-bj'where id = 5;

0a4393df7548067a2564f4e0a7f11bc1.png


7.20 Flinksql 查询cdc update数据 产生两条binlog数据

e4aac730d7129c9f7777158d0a37653c.png


说明:flinksql 查询最终只有一条+I有效数据,且数据已更新

Flink web UI DAG接受到两条binlog数据,但最终compact和sink只有一条有效数据

6ef2eaf8fbc3ece49b07d4f95c4c732d.png


7.21 MySQL 数据源 delete 一条数据:

deletefrom users_cdc where id = 3;

45a2ab4ca30f7d053b0886d539735bf1.png


Flink Web UI job DAG中捕获一条新数据:

c6f1acf0af0fc117e16761ef38d96d55.png


Flinksql changlog delete数据变化查询

2819165f26e3658b2323d97fcd925065.png

HDFS上Hudi数据文件生成情况

71fe8272a44455f37a8fca87cd5ea369.png


6027bbb764d34dbce9e46725ae975219.png


Hudi文件类型说明:

(1)commits: 表示将一批数据原子性写入表中

(2)cleans: 清除表中不在需要的旧版本文件的后台活动

(3)delta_commit:增量提交是指将一批数据原子性写入MergeOnRead类型的表中,其中部分或者所有数据可以写入增量日志中

(4)compaction: 协调hudi中差异数据结构的后台活动,例如:将更新从基于行的日志文件变成列格式。在内部,压缩的表现为时间轴上的特殊提交

(5)rollback:表示提交操作不成功且已经回滚,会删除在写入过程中产生的数据

dd002432b3a595eed3b2f7d03a3d4869.png


说明:hudi分区文件以及.log和.parquet文件都已生成

两种文件区别:Hudi会在DFS分布式文件系统上的basepath基本路径下组织成目录结构。每张对应的表都会成多个分区,这些分区是包含该分区的数据文件的文件夹,与hive的目录结构非常相似。在每个分区内,文件被组织成文件组,文件id为唯一标识。每个文件组包含多个切片,其中每个切片包含在某个提交/压缩即时时间生成的基本列文件(parquet文件),以及自生成基本文件以来对基本文件的插入/更新的一组日志文件(*.log)。Hudi采用MVCC设计,其中压缩操作会将日志和基本文件合并成新的文件片,清理操作会将未使用/较旧的文件片删除来回收DFS上的空间。

Flink 任务checkpoint 情况:

设置30s 一次

03a4ea938ddf8c32969ac784b06883b6.png


a4b6871b02f1ede1ec0f80203b8febbf.png


7.22 Hive shell查询数据update和delete变化情况:

hive> select * from mysqlcdc_sync_hive01_ro;

e1996d6bac983e7299b13e161b13dc0d.png


hive> select * from mysqlcdc_sync_hive01_rt;

2a5025748c9d55045f5c17a95444c21d.png


7.23 Hudi Client端操作Hudi表

进入Hudi客户端命令行:

hudi-master/hudi-cli/hudi-cli.sh

连接Hudi表,查看表信息

hudi->connect --path hdfs://nameservice1/tmp/luo/hudi/mysqlcdc_sync_hive01

592e8b7705c15fc328af33258d9b8452.png


查看Hudi commit信息

hudi:mysqlcdc_sync_hive01->commits show --sortBy "CommitTime"

fd2898cec5258f83d81899cecf82249c.png

查看Hudi compactions 计划

hudi:mysqlcdc_sync_hive01->compactions show all

c3abb93ecd1004e277044ba506884897.png

7.24 PrestoDB 查询Hive表Hudi数据

版本说明:PrestoDB 0.256 DBeaver7.0.4

PrestoDB 集群配置和hive集成参考PrestoDB官网

presto-server-***/etc/catalog/hive.properties 配置hive catalog

可通过 presto-cli 连接 hive metastore 开启查询,presto-cli 的设置参考 presto官方配置;
DBeaver客户端查询Hive ro表数据:

78ebc5233541f7de73ddd19d1899ec1e.png


Hive ro表count 正常:

1d1bcdb3bf45ef1bc17a6408b48bbb15.png


查询Hive rt表数据查询异常:

6a6794c7d56631ff1eefc2376632be55.png


Hive rt表count异常:

ca5f7c01903e9af059f5284c6667caab.png


Presto Web ui:

6117e75b205e7701958f235d61a98cfe.png


81f30b0a1f78ab3ab6d7cf9ab3e5bace.png

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值