Flink table store 配置 hive catalog matestore

AG南山

已于 2022-10-12 15:43:05 修改

阅读量1.8k

点赞数 2

分类专栏： flink 文章标签： hive flink 大数据

于 2022-09-24 14:26:08 首次发布

本文链接：https://blog.csdn.net/qq_44326412/article/details/127008947

版权

flink 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

-- 开启 Flink sql 客户端
-- 定义一个 table store catalog
-- 说明 catalog 类型为 table-store
-- 使用的 hive 作为 metastore
-- uri 为 hive metastore 的连接 
-- warehouse 定义 table store 存储路径 支持hdfs、本地文件系统

-- Fts catalog_hive
CREATE CATALOG hiveFts_catalog WITH (
  'type'='table-store',
  'metastore' = 'hive',
  'uri' = 'thrift://h01:9083',
  'warehouse'='hdfs://h01:9000/user/hiveFts'
);
-- !!! uri和warehouse根据自己的来填!!!

4、创建一个表、查询、插入

-- 使用该 fts hive catalog
show catalogs;
/*
+-----------------+
|    catalog name |
+-----------------+
| default_catalog |
| hiveFts_catalog |
+-----------------+
2 rows in set
*/


USE CATALOG hiveFts_catalog ;

create database if not exists testdb;

show databases;
/*
+---------------+
| database name |
+---------------+
|       default |
|        testdb |
+---------------+
2 rows in set
*/

-- 在test库建一个表
CREATE TABLE if not exists testdb.fts_test_table (
  a int,
  b string
);

show tables;


-- 插入test表
INSERT INTO testdb.fts_test_table VALUES (1, 'Table'), (2, 'Store');

-- 查表
SELECT * FROM testdb.fts_test_table;

可在flink web看到我们的两个程序

5、在 hive sql客户端查询 Flink Table Store Hive 表

前提工作：先在 ${HIVE_HOME} 目录下建一个auxlib文件夹，然后将 flink-table-store-hive-connector-0.2.0_2.2.jar 放进 auxlib 文件夹。

启动 hive sql 客户端

cd ${HIVE_HOME};./bin/hive

-- 查 fts 新建的db
show databases;

-- 使用 testdb
use testdb;

-- 查 testdb 的表
show tables;

-- 在 hive sql 客户端查我们在 flink 那边建的表
select * from testdb.fts_test_table ;

/*
OK
1       Table
2       Store
Time taken: 0.192 seconds, Fetched: 2 row(s)
*/

step3 Flink mysql CDC 到 hiveFts

1、flink已配置好mysql cdc 教程请看>>>，

2、创建 mysql 表；

CREATE TABLE test.mysql_cdc_hiveFts_test (
  a int  PRIMARY KEY not null,
  b varchar(50) 
)；

3、在flink sql client 中创建 hiveFts 表；

use catalog hiveFts_catalog;
use testdb;
CREATE TABLE if not exists testdb.mysql_cdc_hiveFts_test (
  a int  PRIMARY KEY,
  b string 
);

4、在 default_catalog 的 default_database 中创建我们的cdc虚拟表，with语句的配置不要直接抄作业哈，要提前已配置好mysql cdc，没有的请移步>>>。

CREATE TABLE if not exists default_catalog.default_database.mysql_cdc_hiveFts_test (
  a int ,
  b string ,
  PRIMARY KEY(a) NOT ENFORCED
) WITH (
    'connector' = 'mysql-cdc',
    'hostname' = 'h01',
    'port' = '3306',
    'username' = 'root',
    'password' = '123456',
    'database-name' = 'test',
    'table-name' = 'mysql_cdc_hiveFts_test',
	'scan.startup.mode'='initial',
    'debezium.snapshot.mode' = 'initial'
);


-- 可以使用select 语句检查一下 cdc 是否成功
select * from default_catalog.default_database.mysql_cdc_hiveFts_test;

5、执行同步语句，并查询hiveFts表

SET 'execution.checkpointing.interval' = '3s';
-- 设置 3s 一个checkpoint，不设置mysql cdc 不会同步数据

-- cdc临时表中查取，然后插入hiveFts表
INSERT INTO hiveFts_catalog.testdb.mysql_cdc_hiveFts_test SELECT * FROM default_catalog.default_database.mysql_cdc_hiveFts_test;

-- 进行流式实时查询
select * from hiveFts_catalog.testdb.mysql_cdc_hiveFts_test;

对mysql表进行插入、删除、更新操作，再在flink进行实时查询，以及在hive提交查询。

insert into test.mysql_cdc_hiveFts_test values (1,'huawei'),(2,'uiio');

insert into test.mysql_cdc_hiveFts_test select 3,'apple';
 
update from test.mysql_cdc_hiveFts_test set b='xiaomi' where a=2;

delete from  test.mysql_cdc_hiveFts_test where a=3;

step4 每次启动加载 catalog :

让 flink sql 客户端每一次启动都默认加载这个 catalog ，根据官方的 -i 参数教程建议，建一个sql-cli-init.sql文件作为sql客户端的初始化文件。把注册Fts hive catalog的语句写进去，当然还可以包括其他的初始化设置，内容如下，（ uri和warehouse根据自己的来填，不要抄作业！！！）：

cd ${FLINK_HOME};vim ./bin/sql-cli-init.sql

-- Fts catalog_hive
CREATE CATALOG hiveFts_catalog WITH (
  'type'='table-store',
  'metastore' = 'hive',
  'uri' = 'thrift://h01:9083',
  'warehouse'='hdfs://h01:9000/user/hiveFts'
);

-- !!! uri和warehouse根据自己的来填!!!

重新编写一个sql-cli启动脚本

vim ./bin/sql-client-server.sh

内容如下(自己更改自己的内容)：

echo '=================== sql-cil-init info ========================'
initSqlFp='/opt/module/flink/bin/sql-cli-init.sql'
echo $initSqlFp

# jars='/opt/module/flink/lib/flink-table-store-hive-catalog-0.2.0_2.2.jar'
# echo $jars
# addjars="--jar ${jars}" #有需要添加其他jar的可以取消注释

com="/opt/module/flink/bin/sql-client.sh -i ${initSqlFp} " ${addjars}
echo $com
echo '============================================================='
sleep 5s
$com

直接启动./bin/sql-client-server.sh

sh ./bin/sql-client-server.sh

show catalogs;
/*
+-----------------+
|    catalog name |
+-----------------+
| default_catalog |
| hiveFts_catalog |
+-----------------+
2 rows in set
*/

至此，持久化 Fts matestore 到 hive 完成了。

到此完结！

码字不容易，转载请说明出处！