Logstash + Kafka + python的分钟级数据实时抽取
4. 现在为止,我们实现的是全量抽取数据的操作,也就是每次都是完整的读取 mysql 表格中的数据,如果想要进行数据的增量抽取,就需要在每次读取表格的时候对字段内容进行记录,目前能够记录的数据是数字类型的numeric和时间类型的timestamp两种。2. 使用 Python 消费 kafka 数据,并且格式化之后写入到 hdfs 中,现在 kafka 获取的源数据库数据是以 json 来显示行的,所以我们需要的是对 json 进行解析,然后转换成 dataframe 写入 csv 文件。
原创
2023-04-25 21:09:59 ·
1414 阅读 ·
1 评论