Java把MySQL数据导入kafka_Java将CSV的数据发送到kafka的示例

为什么将CSV的数据发到kafka

flink做流式计算时,选用kafka消息作为数据源是常用手段,因此在学习和开发flink过程中,也会将数据集文件中的记录发送到kafka,来模拟不间断数据;

整个流程如下:

7ea5eb59b5433685e9bbe7d4b92bde19.png

您可能会觉得这样做多此一举:flink直接读取CSV不就行了吗?这样做的原因如下:

首先,这是学习和开发时的做法,数据集是CSV文件,而生产环境的实时数据却是kafka数据源;

其次,Java应用中可以加入一些特殊逻辑,例如数据处理,汇总统计(用来和flink结果对比验证);

另外,如果两条记录实际的间隔时间如果是1分钟,那么Java应用在发送消息时也可以间隔一分钟再发送,这个逻辑在flink社区的demo中有具体的实现,此demo也是将数据集发送到kafka,再由flink消费kafka,地址是:https://github.com/ververica/sql-training

如何将CSV的数据发送到kafka

前面的图可以看出,读取CSV再发送消息到kafka的操作是Java应用所为,因此今天的主要工作就是开发这个Java应用,并验证;

版本信息

JDK:1.8.0_181

开发工具:IntelliJ IDEA 2019.2.1 (Ultimate Edition)

开发环境:Win10

Zookeeper:3.4.13

Kafka:2.4.0(scala:2.12)

关于数据集

列名称

说明

用户ID

整数类型,序列化后的用户ID

商品ID

整数类型,序列化后的商品ID

商品类目ID

整数类型,序列化后的商品所属类目ID

行为类型

字符串,枚举类型,包括('pv', 'buy', 'cart', 'fav')

时间戳

行为发生的时间戳

时间字符串

根据时间戳字段生成的时间字符串

关于该数据集的详情,请参考《准备数据集用于flink学习》

Java应用简介

编码前,先把具体内容列出来,然后再挨个实现:

从CSV读取记录的工具类:UserBehaviorCsvFileReader

每条记录对应的Bean类:UserBehavior

Java对象序列化成JSON的序列化类:JsonSerializer

向kafka发送消息的工具类:KafkaProducer

应用类,程序入口:SendMessageApplication

上述五个类即可完成Java应用的工作,接下来开始编码吧;

直接下载源码

如果您不想写代码,您可以直接从GitHub下载这个工程的源码,地址和链接信息如下表所示:

名称

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值