Spark Streaming处理kafka的数据落地HDFS

最新推荐文章于 2024-04-04 22:13:40 发布

Rachel_Channing

最新推荐文章于 2024-04-04 22:13:40 发布

阅读量3.6k

点赞数 1

分类专栏： Spark hive HDFS

本文链接：https://blog.csdn.net/sinat_37513998/article/details/100512731

版权

Spark Streaming处理kafka的数据落地HDFS

背景

生产上项目的数据从上游kafka topic下发过来，经过spark Streaming简单清洗处理后，下发到下一个kafka topic中，目前需要将清洗处理好的数据，按小时分区落地到HDFS上。
要求，如果当前落地HDFS的程序断了，能按照消息下发kafka topic 的时间进行分区。

实现思路

1：在下发的kafka topic中加入一个consumer group专门用于落地HDFS的数据。
2：在spark streaming中使用spark sql将数据写入HDFS上，并按topic下发kafka的时间分区。
3：写入后Hive需要能查到数据
4：需要适当减小小文件的数量，避免namenode压力过大。

代码

需要将hive-site.xml放入resource目录下。
如果是将数据落HDFS需要跨集群，则需要加入core-site.xml和hdfs-site.xml文件

 val messages = KafkaUtils.createDirectStream[String, String](
      sparkStreaming,
      PreferConsistent,
      Subscribe[String, String](topics, kafkaParams)
    )

    messages.foreachRDD{rdd=> {
     val spark = SparkSessionSingleton.

最低0.47元/天解锁文章

Rachel_Channing

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
Spark Streaming处理kafka的数据落地HDFS

Spark Streaming处理kafka的数据落地HDFS背景生产上项目的数据从上游kafka topic下发过来，经过spark Streaming简单清洗处理后，下发到下一个kafka topic中，目前需要将清洗处理好的数据，按小时分区落地到HDFS上。要求，如果当前落地HDFS的程序断了，能按照消息下发kafka topic 的时间进行分区。实现思路1：在下发的kafka t...
复制链接

扫一扫

专栏目录