Flink 1.11 正式发布已经三周了,其中最吸引我的特性就是 Hive Streaming。正巧 Zeppelin-0.9-preview2 也在前不久发布了,所以就写了一篇 Zeppelin 上的 Flink Hive Streaming 的实战解析。本文主要从以下几部分跟大家分享:
- Hive Streaming 的意义
- Checkpoint & Dependency
- 写入 Kafka
- Hive Streaming Sink
- Hive Streaming Source
- Hive Temporal Table
1 Hive Streaming 的意义
很多同学可能会好奇,为什么 Flink 1.11 中,Hive Streaming 的地位这么高?它的出现,到底能给我们带来什么? 其实在大数据领域,一直存在两种架构 Lambda 和 Kappa:
-
Lambda 架构——流批分离,静态数据通过定时调度同步到 Hive 数仓,实时数据既会同步到 Hive,也会被实时计算引擎消费,这里就引出了一点问题。
-
数据口径问题
-
离线计算产出延时太大