- 博客(1)
- 收藏
- 关注
原创 Flink接收kafka数据根据event time存储到相应目录文件并以parquet文件格式存储到HDFS
Flink接收kafka数据根据event time存储到相应目录文件并以parquet文件格式存储到HDFS需求描述系统环境概述基于BucketingSink在2.7版本以下的HDFS上实现实现思路根据event time存储到相应目录 需求描述 消费kafka的消息,根据数据的时间时间,将数据分小时的存入到HDFS中,如果利用textfile进行存储,将消耗大量的存储空间,并且查询也较慢,需要压缩成为parquet格式,减少空间,加快后序的处理速度。 数据格式:事件时间戳\t日志数据 系统环境 kafk
2020-05-27 16:00:42
1549
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人