关于Kafka数据每5分钟同步到Hive，你了解多少？

最新推荐文章于 2024-07-24 10:08:06 发布

老马说开发y

最新推荐文章于 2024-07-24 10:08:06 发布

阅读量656

点赞数 1

文章标签： kafka hive hadoop

本文链接：https://blog.csdn.net/lyl54545/article/details/123501865

版权

本文介绍了如何使用Flink将Kafka数据每5分钟同步至Hive，涉及环境配置、Flink消费Kafka数据、时间窗口设置、数据预处理以及Hive加载。通过定制时间桶和策略，确保数据按分钟分区存储。

摘要由CSDN通过智能技术生成

1.概述

最近有同学留言咨询Kafka数据落地到Hive的一些问题，今天笔者将为大家来介绍一种除Flink流批一体以外的方式（流批一体下次再单独写一篇给大家分享）。

2.内容

首先，我们简单来描述一下数据场景，比如有这样一个数据场景，有一批实时流数据实时写入Kafka，然后需要对Topic中的数据进行每隔5分钟进行落地到Hive，进行每5分钟分区存储。流程图如下所示：

2.1 环境依赖

整个流程，需要依赖的组件有Kafka、Flink、Hadoop。由于Flink提交需要依赖Hadoop的计算资源和存储资源，所以Hadoop的YARN和HDFS均需要启动。各个组件版本如下：

组件版本

Kafka2.4.0

Flink1.10.0

Hadoop2.10.0

2.2 每分钟落地HDFS实现

Flink消费Kafka集群中的数据，需要依赖Flink包，依赖如下：

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-filesystem_2.12</artifactId>
    <version>${flink.connector.version}</version>
 </dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-kafka-0.11_2.12</artifactId>
    <version>${flink.kafka.version}</version>
 </dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-streaming-java_2.12</artifactId>
    <version>${flink.streaming.version}</version>
 </dependency>

编写消费Topic的Flink代码，这里不对Topic中的数据做逻辑处理，在后面统一交给MapReduce来做数据预处理，直接消费并存储到HDFS上。代码如下：

public class Kafka2Hdfs {

    private static Logger LOG = LoggerFactory.getLogger(Kafka2Hdfs.class);

    public static void main(String[] args) {
        if (args.length != 3) {
            LOG.error("kafka(server01:9092), hdfs(hdfs://cluster01/data/), flink(parallelism=2) must be exist.");
            return;
        }
        String bootStrapServer = args[0];
        String hdfsPath = args[1];
        int parallelism = Integer.parseInt(args[2]);

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.enableCheckpointing(5000);
        env.setP