大数据最全StarRocks数据导入,2024年冲刺年薪40w

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

3.3、Flink创建映射表
3.3.1、启动Flink(服务未停止,可以跳过)
 ./start-cluster.sh

3.3.2、启动sql-client
./sql-client.sh embedded

3.3.3、Source部分,创建映射至MySQL的映射表source_mysql_suser
CREATE TABLE source_mysql_suser (
   id INT,
   name STRING,
   p_id INT,
   PRIMARY KEY (id) NOT ENFORCED
)WITH (
   'connector' = 'jdbc',
   'url' = 'jdbc:mysql://192.168.110.102:3306/ODS',
   'table-name' = 's\_user',
   'username' = 'root',
   'password' = 'root'
);

3.3.4、Sink部分,创建至StarRocks的映射表sink_starrocks_suser
CREATE TABLE sink_starrocks_suser (
   id INT,
   name STRING,
   p_id INT,
   PRIMARY KEY (id) NOT ENFORCED
)WITH (
   'connector' = 'starrocks',
   'jdbc-url'='jdbc:mysql://192.168.110.101:9030',
   'load-url'='192.168.110.101:8030',
   'database-name' = 'starrocks',
   'table-name' = 's\_user',
   'username' = 'root',
   'password' = 'root',
   'sink.buffer-flush.interval-ms' = '5000',
   'sink.properties.column\_separator' = '\x01',
   'sink.properties.row\_delimiter' = '\x02'
);

3.3.5、Flink清洗数据并写入StarRocks

只是简单做一个where筛选,实际业务可能是多表join的复杂场景

insert into sink_starrocks_suser select id,name,p_id from source_mysql_suser where p_id = 61;

数据写入StarRocks后,Flink任务完成并结束。此时若再对MySQL中s_user表的数据进行增删或修改操作,Flink亦不会感知。

4、Flink读取StarRocks数据写入MySQL

还使用MySQL 中的s_user表和StarRocks的s_user表,将业务流程反转一下,读取StarRocks中的数据写入其他业务库,例如MySQL。

4.1、Flink创建映射表
4.1.1、启动Flink(服务未停止,可以跳过)
./start-cluster.sh

4.1.2、启动sql-client
./sql-client.sh embedded

4.1.3、Source部分,创建StarRocks映射表source_starrocks_suser
CREATE TABLE source_starrocks_suser (
   id INT,
   name STRING,
   p_id INT
)WITH (
   'connector' = 'starrocks',
   'scan-url'='192.168.110.101:8030',
   'jdbc-url'='jdbc:mysql://192.168.110.101:9030',
   'database-name' = 'starrocks',
   'table-name' = 's\_user',
   'username' = 'root',
   'password' = 'root'
);

4.1.4、Sink部分,创建向MySQL的映射表sink_mysql_suser
CREATE TABLE sink_mysql_suser (
   id INT,
   name STRING,
   p_id INT,
   PRIMARY KEY (id) NOT ENFORCED
)WITH (
   'connector' = 'jdbc',
   'url' = 'jdbc:mysql://192.168.110.102:3306/ODS',
   'table-name' = 's\_user',
   'username' = 'root',
   'password' = 'root'
);

4.2、MySQL准备
4.2.1、清空MySQL s_user表数据,为一会儿导入新数据做准备
 use ODS;
truncate table s_user;

4.3、Flink执行导入任务

简单梳理操作,实际业务可能会对StarRocks中多个表的数据进行分组或者join等处理然后再导入。

 insert into sink_mysql_suser select id,name,p_id from source_starrocks_suser;

4.4、查看MySQL数据
 select \* from s_user;

5、Flink CDC同步MySQL数据至StarRocks

  • 使用FlinkJDBC来读取MySQL数据时,JDBC的方式是“一次性”的导入,若希望让Flink感知MySQL数据源的数据变化,并近实时的实现据 同步,就需要使用Flink CDC。
  • CDC是变更数据捕获(Change Data Capture)技术的缩写,它可以将源数据库(Source)的数据变动记录,同步到一个或多个数据目的地中(Sink)。直观的说就是当数据源的数据变化时,通过CDC可以让目标库中的数据同步发生变化(仅限于DML操作)。
  • 还使用前面MySQL的s_user表以及StarRocks的s_user表来演示。
5.1、MySQL准备
5.1.1、MySQL开启binlog(格式为ROW模式)

vi /etc/my.cnf

log-bin=mysql-bin  # 开启binlog
binlog-format=ROW # 选择ROW模式
server_id=1       # 配置MySQL replaction

5.1.2、重启MySQL服务:
systemctl restart mysqld

5.2、StarRocks准备
5.2.1、StarRocks中清空s_user表中的数据
mysql -h192.168.110.101 -P9030 -uroot –proot

use starrocks;
truncate table s_user;

5.3、Flink准备
5.3.1、启动Flink(服务未停止,可以跳过)
./start-cluster.sh

5.3.2、启动sql-client
./sql-client.sh embedded

5.3.3、Source部分,创建MySQL映射表cdc_mysql_suser
CREATE TABLE cdc_mysql_suser (
   id INT,
   name STRING,
   p_id INT
) WITH (
   'connector' = 'mysql-cdc',
   'hostname' = '192.168.110.102',
   'port' = '3306',
   'username' = 'root',
   'password' = 'root',
   'database-name' = 'ODS',
   'scan.incremental.snapshot.enabled'='false',
   'table-name' = 's\_user'
);

5.3.4、Sink部分,创建向StarRocks的cdc_starrocks_suser
CREATE TABLE cdc_starrocks_suser (
   id INT,
   name STRING,
   p_id INT,
   PRIMARY KEY (id) NOT ENFORCED
)WITH (
   'connector' = 'starrocks',
   'jdbc-url'='jdbc:mysql://192.168.110.101:9030',
   'load-url'='192.168.110.101:8030',
   'database-name' = 'starrocks',
   'table-name' = 's\_user',
   'username' = 'root',
   'password' = 'root',
   'sink.buffer-flush.interval-ms' = '5000',
   'sink.properties.column\_separator' = '\x01',
   'sink.properties.row\_delimiter' = '\x02'
);

5.4、执行同步任务
insert into cdc_starrocks_suser select id,name,p_id from cdc_mysql_suser;

在CDC场景下,Flink SQL执行后同步任务将会持续进行,当MySQL中数据出现变化,Flink会快速感知,并将变化同步至StarRocks中。

5.5、数据观察
5.5.1、MySQL库中观察数据
mysql -uroot –proot

use ODS;
select \* from s_user;

5.5.2、StarRocks库中观察数据
mysql -h192.168.110.101 -P9030 -uroot –proot

use starrocks;
select \* from s_user;

5.5.3、MySQL中,对数据进行增删改操作
 INSERT INTO s_user VALUES(12345,'SR',61);

DELETE FROM s_user WHERE id = 10010;

UPDATE s_user SET `name`='No.1' WHERE id = 10086;

5.5.4、查看StarRocks中表的数据
 select \* from s_user;

可以确认对MySQL源表数据的增加、修改和删除操作引起的数据变化,都能同步至StarRocks目标表中。

6、通过CDC+SMT实现MySQL多表数据的秒级同步

StarRocks Migration Tool:为了友好的解决多表同步时的问题,StarRocks发布了StarRocks-migrate-tools(简称smt)工具,来快捷生成StarRocks表结构和Flink-SQL映射表及同步语句。Smt目前可用于MySQL、PostgreSQL、Oracle和hive,后面三个数据库的同步还在公测中,先以MySQL来进行演示。

6.1 MySQL准备

已开启binlog的MySQL中创建数据库CDC,并在其中创建表departments和jobs,创建完成后再导入少量数据。

6.1.1、创建表departments
CREATE DATABASE CDC;
USE CDC;
 CREATE TABLE `departments` (
   `department\_id` int(4) NOT NULL AUTO\_INCREMENT,
   `department\_name` varchar(3) DEFAULT NULL,
   `manager\_id` int(6) DEFAULT NULL,
   `location\_id` int(4) DEFAULT NULL,
   PRIMARY KEY (`department\_id`)
);

6.1.2、为表departments插入数据
insert  into `departments`(`department\_id`,`department\_name`,`manager\_id`,`location\_id`) 
values (10,'Adm',200,1700),(20,'Mar',201,1800),(30,'Pur',114,1700),(40,'Hum',203,2400),(50,'Shi',121,1500),(60,'IT',103,1400),(70,'Pub',204,2700),(80,'Sal',145,2500),(90,'Exe',100,1700),(100,'Fin',108,1700),(110,'Acc',205,1700),(120,'Tre',NULL,1700),(130,'Cor',NULL,1700),(140,'Con',NULL,1700),(150,'Sha',NULL,1700),(160,'Ben',NULL,1700),(170,'Man',NULL,1700),(180,'Con',NULL,1700),(190,'Con',NULL,1700),(200,'Ope',NULL,1700),(210,'IT ',NULL,1700),(220,'NOC',NULL,1700),(230,'IT ',NULL,1700),(240,'Gov',NULL,1700),(250,'Ret',NULL,1700),(260,'Rec',NULL,1700),(270,'Pay',NULL,1700);

6.1.3、创建表jobs
CREATE TABLE `jobs` (
   `job\_id` varchar(10) NOT NULL,
   `job\_title` varchar(35) DEFAULT NULL,
   `min\_salary` int(6) DEFAULT NULL,
   `max\_salary` int(6) DEFAULT NULL,
   PRIMARY KEY (`job\_id`)
);

6.1.4、为表jobs插入数据
insert  into `jobs`(`job\_id`,`job\_title`,`min\_salary`,`max\_salary`) 
values ('AC\_ACCOUNT','Public Accountant',4200,9000),('AC\_MGR','Accounting Manager',8200,16000),('AD\_ASST','Administration Assistant',3000,6000),('AD\_PRES','President',20000,40000),('AD\_VP','Administration Vice President',15000,30000),('FI\_ACCOUNT','Accountant',4200,9000),('FI\_MGR','Finance Manager',8200,16000),('HR\_REP','Human Resources Representative',4000,9000),('IT\_PROG','Programmer',4000,10000),('MK\_MAN','Marketing Manager',9000,15000),('MK\_REP','Marketing Representative',4000,9000),('PR\_REP','Public Relations Representative',4500,10500),('PU\_CLERK','Purchasing Clerk',2500,5500),('PU\_MAN','Purchasing Manager',8000,15000),('SA\_MAN','Sales Manager',10000,20000),('SA\_REP','Sales Representative',6000,12000),('SH\_CLERK','Shipping Clerk',2500,5500),('ST\_CLERK','Stock Clerk',2000,5000),('ST\_MAN','Stock Manager',5500,8500);

6.2 配置SMT工具
6.2.1 下载smt工具,解压后修改配置文件

vi conf/config_prod.conf

1、配置MySQL部分
[db]

host = 192.168.110.102  #MySQL所在服务器IP
port = 3306  #MySQL服务端口
user = root  #用户名
password = root  #密码
# currently available types: `mysql`, `pgsql`, `oracle`, `hive`
type = mysql  #类型选择MySQL,目前PostgreSQL、Oracle和Hive正在公测中
# # only takes effect on `type == hive`.
# # Available values: kerberos, none, nosasl, kerberos\_http, none\_http, zk, ldap
# authentication = kerberos
[other]
# number of backends in StarRocks
be_num = 1  #配置StarRocks BE的节点数,以便生成更合理bucket数量的建表语句
# `decimal\_v3` is supported since StarRocks-1.18.1
use_decimal_v3 = true  #使用更高精度的Decimal类型,1.18后的版本都支持
# file to save the converted DDL SQL
output_dir = ./result  #后续生成sql文件的保存目录
# !!!`database` `table` `schema` are case sensitive in `oracle`!!!
[table-rule.1]
# pattern to match databases for setting properties
# !!! database should be a `whole instance(or pdb) name` but not a regex when it comes with an `oracle db` !!!
database = CDC  #配置需要同步的数据库,需使用正则表达式的写法
# pattern to match tables for setting properties
table = departments|jobs  #配置需要同步的表,需使用正则表达式的写法
# `schema` only takes effect on `postgresql` and `oracle`
schema = ^public$  #同步MySQL时不需要管这个

2、配置StarRocks集群信息
############################################
### flink sink configurations #这部分与Flink Sink部分写法相似
### DO NOT set `connector`, `table-name`, `database-name`, they are auto-generated
############################################
flink.starrocks.jdbc-url=jdbc:mysql://192.168.110.101:9030
flink.starrocks.load-url=192.168.110.101:8030
flink.starrocks.username=root
flink.starrocks.password=root
flink.starrocks.sink.properties.format=json  #以json格式攒批
flink.starrocks.sink.properties.strip_outer_array=true  #展开为数组
flink.starrocks.sink.buffer-flush.interval-ms=10000  #攒批10秒导入一次
# # used to set the server-id for mysql-cdc jobs instead of using a random server-id
# flink.cdc.server-id = 5000

6.3 SMT工具使用

参考地址:
https://docs.starrocks.io/zh-cn/latest/loading/Flink_cdc_load#%E4%BB%8E-mysql-%E5%AE%9E%E6%97%B6%E5%90%8C%E6%AD%A5

6.3.1 执行smt工具
./starrocks-migrate-tool

6.3.2 在配置的./result路径下生成sql语句文件
flink-create.1.sql
flink-create.all.sql
starrocks-create.1.sql
starrocks-create.all.sql
starrocks-external-create.1.sql
starrocks-external-create.all.sql

6.4 生成Flink 任务
6.4.1 同步库表结构

如果数据需要经过 Flink 处理后写入目标表,目标表与源表的结构不一样,则您需要修改 SQL 文件 starrocks-create.all.sql 中的建表语句。

mysql -h192.168.110.101 -P9030 -uroot -proot < /opt/module/smt/result/starrocks-create.all.sql


6.4.2、同步数据

进入 Flink 目录,执行如下命令

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

Flink 处理后写入目标表,目标表与源表的结构不一样,则您需要修改 SQL 文件 starrocks-create.all.sql 中的建表语句。

mysql -h192.168.110.101 -P9030 -uroot -proot < /opt/module/smt/result/starrocks-create.all.sql


6.4.2、同步数据

进入 Flink 目录,执行如下命令

[外链图片转存中…(img-aptxdIhm-1715752005104)]
[外链图片转存中…(img-NlKkuBqt-1715752005104)]

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 15
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值