python 读取kafka 写hive_Flink实战之Kafka To Hive

最新推荐文章于 2023-12-20 12:08:30 发布

weixin_39600510

最新推荐文章于 2023-12-20 12:08:30 发布

阅读量241

点赞数

文章标签： python 读取kafka 写hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39600510/article/details/111498710

版权

本文介绍了如何使用Flink SQL将Kafka数据实时写入Hive表。通过注册Hive Catalog，创建外部表并设置分区和存储方式，然后创建Kafka源表，最后通过INSERT INTO语句实现数据流动。该方法适用于提高实时入库任务的效率。

摘要由CSDN通过智能技术生成

背景

传统的入库任务一般借助于MapReduce或者Spark来写hive表，一般都是天级别最多小时级别的任务。随着实时性要求越来越高，传统的入库不太能满足需求。Flink完全基于流式处理，同时也支持了写Hive表。本文介绍一下如果通过FlinkSQL实现kafka数据入库hive，并能够实时可查。

Hive Catalog

由于写hive表必须基于hive catalog，所以需要注册hive catalog。同时可以在一个job内切换catalog，如果我们不想把kafka的source table注册到hive metastore里面，那么就可以使用memory catalog。

SQL

完整SQL如下

USE CATALOG hive_catalog;

USE mydb;--要写入的hive db

set table.sql-dialect=hive;

DROP TABLE IF EXISTS hive_table;

CREATE EXTERNAL TABLE hive_table (

data_timestamp BIGINT,

a STRING,

b STRING

) PARTITIONED BY (`day` STRING, `hour` STRING) STORED AS PARQUET

TBLPROPERTIES (

--这里支持filesystem connector的所有参数

'parquet.compression'='SNAPPY',--压缩算法

'sink.partition-commit.policy.kind' = 'metastore,su

最低0.47元/天解锁文章

weixin_39600510

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python 读取kafka 写hive_Flink实战之Kafka To Hive

背景传统的入库任务一般借助于MapReduce或者Spark来写hive表，一般都是天级别最多小时级别的任务。随着实时性要求越来越高，传统的入库不太能满足需求。Flink完全基于流式处理，同时也支持了写Hive表。本文介绍一下如果通过FlinkSQL实现kafka数据入库hive，并能够实时可查。Hive Catalog由于写hive表必须基于hive catalog，所以需要注册hive cat...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。