关于Kafka数据每5分钟同步到Hive，你了解多少？

倾听铃的声

已于 2022-07-13 16:07:24 修改

阅读量1.2k

点赞数 1

分类专栏：后端文章标签：大数据 java 开发语言职场和发展 kafka

于 2022-07-13 16:07:15 首次发布

本文链接：https://blog.csdn.net/m0_67698950/article/details/125766293

版权

本文介绍了如何使用Flink从Kafka每5分钟同步数据到Hive，涉及环境配置、Flink消费Kafka数据、时间窗口设置、数据预处理以及Hive加载。通过设置时间窗口，确保数据按分钟落地到HDFS，并进行预处理以合并最近5分钟的数据。文章还提及了数据加载时的注意事项和错误处理策略。

摘要由CSDN通过智能技术生成

1.概述

最近有同学留言咨询Kafka数据落地到Hive的一些问题，今天笔者将为大家来介绍一种除Flink流批一体以外的方式（流批一体下次再单独写一篇给大家分享）。

2.内容

首先，我们简单来描述一下数据场景，比如有这样一个数据场景，有一批实时流数据实时写入Kafka，然后需要对Topic中的数据进行每隔5分钟进行落地到Hive，进行每5分钟分区存储。流程图如下所示：

2.1 环境依赖

整个流程，需要依赖的组件有Kafka、Flink、Hadoop。由于Flink提交需要依赖Hadoop的计算资源和存储资源，所以Hadoop的YARN和HDFS均需要启动。各个组件版本如下：

组件版本

Kafka2.4.0

Flink1.10.0

Hadoop2.10.0

2.2 每分钟落地HDFS实现

Flink消费Kafka集群中的数据，需要依赖Flink包，依赖如下：

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-filesystem_2.12</artifactId>
    <version>${flink.connector.version}</version>
 </dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-kafka-0.11_2.12</artifactId>
    <version>${flink.kafka.version}</version>
 </dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-streaming-java_2.12</artifactId>
    <version>${flink.streaming.version}</version>
 </dependency>

编写消费Topic的Flink代码，这里不对Topic中的数据做逻辑处理，在后面统一交给MapReduce来做数据预处理，直接消费并存储到HDFS上。代码如下：

public class Kafka2Hdfs {

    private static Logger LOG = LoggerFactory.getLogger(Kafka2Hdfs.class);

    public static void main(String[] args) {
        if (args.length != 3) {
            LOG.error("kafka(server01:9092), hdfs(hdfs://cluster01/data/), flink(parallelism=2) must be exist.");
            return;
        }
        String bootStrapServer = args[0];
        String hdfsPath = args[1];
        int parallelism = Integer.parseInt(args[2]);

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.enableCheckpointing(5000);