kafka-console-producer.sh --broker-list 192.168.110.101:9092 --topic province
2.1.5、生产数据
11,北京
61,陕西
2.2、StarRocks准备
2.2.1、创建主键模型表s_province
create database starrocks;
use starrocks;
CREATE TABLE IF NOT EXISTS starrocks.`s\_province` (
`uid` int(10) NOT NULL COMMENT "",
`p\_id` int(2) NOT NULL COMMENT "",
`p\_name` varchar(30) NULL COMMENT ""
)
PRIMARY KEY(`uid`)
DISTRIBUTED BY HASH(`uid`) BUCKETS 1
PROPERTIES (
"replication\_num" = "1",
-- 限主键模型
"enable\_persistent\_index" = "true"
);
2.3、Flink准备
2.3.1、启动Flink
./start-cluster.sh
2.3.2、启动sql-client
/sql-client.sh embedded
2.3.3、执行Flink SQL,创建上下游的映射表
1、Source部分,创建Flink向Kafka的映射表kafka_source_behavior
CREATE TABLE kafka_source_behavior (
uuid int,
name string,
age int,
province_id int,
behavior string
) WITH (
'connector' = 'kafka',
'topic' = 'behavior',
'properties.bootstrap.servers' = '192.168.110.101:9092',
'properties.group.id' = 'source\_behavior',
'scan.startup.mode' = 'earliest-offset',
'format' = 'csv'
);
2、创建映射表kafka_source_province
CREATE TABLE kafka_source_province (
pid int,
p_name string
) WITH (
'connector' = 'kafka',
'topic' = 'province',
'properties.bootstrap.servers' = '192.168.110.101:9092',
'properties.group.id' = 'source\_province',
'scan.startup.mode' = 'earliest-offset',
'format' = 'csv'
);
3、Sink部分,创建Flink向StarRocks的映射表sink_province
CREATE TABLE sink_province (
uid INT,
p_id INT,
p_name STRING,
PRIMARY KEY (uid) NOT ENFORCED
)WITH (
'connector' = 'starrocks',
'jdbc-url'='jdbc:mysql://192.168.110.101:9030',
'load-url'='192.168.110.101:8030',
'database-name' = 'starrocks',
'table-name' = 's\_province',
'username' = 'root',
'password' = 'root',
'sink.buffer-flush.interval-ms' = '5000',
'sink.properties.column\_separator' = '\x01',
'sink.properties.row\_delimiter' = '\x02'
);
2.3.4、执行同步任务
执行Flink SQL,开始同步任务
insert into sink_province select b.uuid as uid, b.province_id as p_id, p.p_name from kafka_source_behavior b join kafka_source_province p on b.province_id = p.pid;
2.4、StarRocks查看数据
mysql -h192.168.110.101 -P9030 -uroot –proot
use starrocks;
select \* from s_province;
3、Flink JDBC读取MySQL数据写入StarRocks
使用Flink JDBC方式读取MySQL数据的实时场景不多,因为JDBC下Flink只能获取执行命令时MySQL表的数据,所以更适合离线场景。假设有复杂的MySQL数据,就可以在Flink中跑定时任务,来获取清洗后的数据,完成后写入StarRocks。
3.1、MySQL准备
3.1.1、MySQL中创建表s_user
use ODS;
CREATE TABLE `s\_user` (
`id` INT(11) NOT NULL,
`name` VARCHAR(32) DEFAULT NULL,
`p\_id` INT(2) DEFAULT NULL,
PRIMARY KEY (`id`)
);
3.1.2、插入数据
insert into s_user values(10086,'lm',61),(10010, 'ls',11), (10000,'ll',61);
3.2、StarRocks准备
3.2.1、StarRocks创建表s_user
use starrocks;
CREATE TABLE IF NOT EXISTS starrocks.`s\_user` (
`id` int(10) NOT NULL COMMENT "",
`name` varchar(20) NOT NULL COMMENT "",
`p\_id` INT(2) NULL COMMENT ""
)
PRIMARY KEY(`id`)
DISTRIBUTED BY HASH(`id`) BUCKETS 1
PROPERTIES (
"replication\_num" = "1",
-- 限主键模型
"enable\_persistent\_index" = "true"
);
3.3、Flink创建映射表
3.3.1、启动Flink(服务未停止,可以跳过)
./start-cluster.sh
3.3.2、启动sql-client
./sql-client.sh embedded
3.3.3、Source部分,创建映射至MySQL的映射表source_mysql_suser
CREATE TABLE source_mysql_suser (
id INT,
name STRING,
p_id INT,
PRIMARY KEY (id) NOT ENFORCED
)WITH (
'connector' = 'jdbc',
'url' = 'jdbc:mysql://192.168.110.102:3306/ODS',
'table-name' = 's\_user',
'username' = 'root',
'password' = 'root'
);
3.3.4、Sink部分,创建至StarRocks的映射表sink_starrocks_suser
CREATE TABLE sink_starrocks_suser (
id INT,
name STRING,
p_id INT,
PRIMARY KEY (id) NOT ENFORCED
)WITH (
'connector' = 'starrocks',
'jdbc-url'='jdbc:mysql://192.168.110.101:9030',
'load-url'='192.168.110.101:8030',
'database-name' = 'starrocks',
'table-name' = 's\_user',
'username' = 'root',
'password' = 'root',
'sink.buffer-flush.interval-ms' = '5000',
'sink.properties.column\_separator' = '\x01',
'sink.properties.row\_delimiter' = '\x02'
);
3.3.5、Flink清洗数据并写入StarRocks
只是简单做一个where筛选,实际业务可能是多表join的复杂场景
insert into sink_starrocks_suser select id,name,p_id from source_mysql_suser where p_id = 61;
数据写入StarRocks后,Flink任务完成并结束。此时若再对MySQL中s_user表的数据进行增删或修改操作,Flink亦不会感知。
4、Flink读取StarRocks数据写入MySQL
还使用MySQL 中的s_user表和StarRocks的s_user表,将业务流程反转一下,读取StarRocks中的数据写入其他业务库,例如MySQL。
4.1、Flink创建映射表
4.1.1、启动Flink(服务未停止,可以跳过)
./start-cluster.sh
4.1.2、启动sql-client
./sql-client.sh embedded
4.1.3、Source部分,创建StarRocks映射表source_starrocks_suser
CREATE TABLE source_starrocks_suser (
id INT,
name STRING,
p_id INT
)WITH (
'connector' = 'starrocks',
'scan-url'='192.168.110.101:8030',
'jdbc-url'='jdbc:mysql://192.168.110.101:9030',
'database-name' = 'starrocks',
'table-name' = 's\_user',
'username' = 'root',
'password' = 'root'
);
4.1.4、Sink部分,创建向MySQL的映射表sink_mysql_suser
CREATE TABLE sink_mysql_suser (
id INT,
name STRING,
p_id INT,
PRIMARY KEY (id) NOT ENFORCED
)WITH (
'connector' = 'jdbc',
'url' = 'jdbc:mysql://192.168.110.102:3306/ODS',
'table-name' = 's\_user',
'username' = 'root',
'password' = 'root'
);
4.2、MySQL准备
4.2.1、清空MySQL s_user表数据,为一会儿导入新数据做准备
use ODS;
truncate table s_user;
4.3、Flink执行导入任务
简单梳理操作,实际业务可能会对StarRocks中多个表的数据进行分组或者join等处理然后再导入。
insert into sink_mysql_suser select id,name,p_id from source_starrocks_suser;
4.4、查看MySQL数据
select \* from s_user;
5、Flink CDC同步MySQL数据至StarRocks
- 使用FlinkJDBC来读取MySQL数据时,JDBC的方式是“一次性”的导入,若希望让Flink感知MySQL数据源的数据变化,并近实时的实现据 同步,就需要使用Flink CDC。
- CDC是变更数据捕获(Change Data Capture)技术的缩写,它可以将源数据库(Source)的数据变动记录,同步到一个或多个数据目的地中(Sink)。直观的说就是当数据源的数据变化时,通过CDC可以让目标库中的数据同步发生变化(仅限于DML操作)。
- 还使用前面MySQL的s_user表以及StarRocks的s_user表来演示。
5.1、MySQL准备
5.1.1、MySQL开启binlog(格式为ROW模式)
vi /etc/my.cnf
log-bin=mysql-bin # 开启binlog
binlog-format=ROW # 选择ROW模式
server_id=1 # 配置MySQL replaction
5.1.2、重启MySQL服务:
systemctl restart mysqld
5.2、StarRocks准备
5.2.1、StarRocks中清空s_user表中的数据
mysql -h192.168.110.101 -P9030 -uroot –proot
use starrocks;
truncate table s_user;
5.3、Flink准备
5.3.1、启动Flink(服务未停止,可以跳过)
./start-cluster.sh
5.3.2、启动sql-client
./sql-client.sh embedded
5.3.3、Source部分,创建MySQL映射表cdc_mysql_suser
CREATE TABLE cdc_mysql_suser (
id INT,
name STRING,
p_id INT
) WITH (
'connector' = 'mysql-cdc',
'hostname' = '192.168.110.102',
'port' = '3306',
'username' = 'root',
'password' = 'root',
'database-name' = 'ODS',
'scan.incremental.snapshot.enabled'='false',
'table-name' = 's\_user'
);
5.3.4、Sink部分,创建向StarRocks的cdc_starrocks_suser
CREATE TABLE cdc_starrocks_suser (
id INT,
name STRING,
p_id INT,
PRIMARY KEY (id) NOT ENFORCED
)WITH (
'connector' = 'starrocks',
'jdbc-url'='jdbc:mysql://192.168.110.101:9030',
'load-url'='192.168.110.101:8030',
'database-name' = 'starrocks',
'table-name' = 's\_user',
'username' = 'root',
'password' = 'root',
'sink.buffer-flush.interval-ms' = '5000',
'sink.properties.column\_separator' = '\x01',
'sink.properties.row\_delimiter' = '\x02'
);
5.4、执行同步任务
insert into cdc_starrocks_suser select id,name,p_id from cdc_mysql_suser;
在CDC场景下,Flink SQL执行后同步任务将会持续进行,当MySQL中数据出现变化,Flink会快速感知,并将变化同步至StarRocks中。
5.5、数据观察
5.5.1、MySQL库中观察数据
mysql -uroot –proot
use ODS;
select \* from s_user;
5.5.2、StarRocks库中观察数据
mysql -h192.168.110.101 -P9030 -uroot –proot
use starrocks;
select \* from s_user;
5.5.3、MySQL中,对数据进行增删改操作
INSERT INTO s_user VALUES(12345,'SR',61);
DELETE FROM s_user WHERE id = 10010;
UPDATE s_user SET `name`='No.1' WHERE id = 10086;
5.5.4、查看StarRocks中表的数据
select \* from s_user;
可以确认对MySQL源表数据的增加、修改和删除操作引起的数据变化,都能同步至StarRocks目标表中。
6、通过CDC+SMT实现MySQL多表数据的秒级同步
StarRocks Migration Tool:为了友好的解决多表同步时的问题,StarRocks发布了StarRocks-migrate-tools(简称smt)工具,来快捷生成StarRocks表结构和Flink-SQL映射表及同步语句。Smt目前可用于MySQL、PostgreSQL、Oracle和hive,后面三个数据库的同步还在公测中,先以MySQL来进行演示。
6.1 MySQL准备
已开启binlog的MySQL中创建数据库CDC,并在其中创建表departments和jobs,创建完成后再导入少量数据。
6.1.1、创建表departments
CREATE DATABASE CDC;
USE CDC;
CREATE TABLE `departments` (
`department\_id` int(4) NOT NULL AUTO\_INCREMENT,
`department\_name` varchar(3) DEFAULT NULL,
`manager\_id` int(6) DEFAULT NULL,
`location\_id` int(4) DEFAULT NULL,
PRIMARY KEY (`department\_id`)
);
6.1.2、为表departments插入数据
insert into `departments`(`department\_id`,`department\_name`,`manager\_id`,`location\_id`)
values (10,'Adm',200,1700),(20,'Mar',201,1800),(30,'Pur',114,1700),(40,'Hum',203,2400),(50,'Shi',121,1500),(60,'IT',103,1400),(70,'Pub',204,2700),(80,'Sal',145,2500),(90,'Exe',100,1700),(100,'Fin',108,1700),(110,'Acc',205,1700),(120,'Tre',NULL,1700),(130,'Cor',NULL,1700),(140,'Con',NULL,1700),(150,'Sha',NULL,1700),(160,'Ben',NULL,1700),(170,'Man',NULL,1700),(180,'Con',NULL,1700),(190,'Con',NULL,1700),(200,'Ope',NULL,1700),(210,'IT ',NULL,1700),(220,'NOC',NULL,1700),(230,'IT ',NULL,1700),(240,'Gov',NULL,1700),(250,'Ret',NULL,1700),(260,'Rec',NULL,1700),(270,'Pay',NULL,1700);
6.1.3、创建表jobs
CREATE TABLE `jobs` (
`job\_id` varchar(10) NOT NULL,
`job\_title` varchar(35) DEFAULT NULL,
`min\_salary` int(6) DEFAULT NULL,
`max\_salary` int(6) DEFAULT NULL,
PRIMARY KEY (`job\_id`)
);
6.1.4、为表jobs插入数据
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新
如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。**
深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
[外链图片转存中…(img-bMyM7vRj-1712863221727)]
[外链图片转存中…(img-1oQ83WAW-1712863221728)]
[外链图片转存中…(img-iWlCg8fr-1712863221728)]
[外链图片转存中…(img-ArYbaCD0-1712863221728)]
[外链图片转存中…(img-CsjvilT2-1712863221728)]
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新
如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
[外链图片转存中…(img-z154FhiL-1712863221729)]