Flink中DataGeneratorSource和DataGen Connector的使用

在我们测试使用Flink的时候,往往需要写很多的代码去造数据,会浪费很多时间,Flink为DataStream和Table&SQL Api提供了生成数据的Source,我们可以方便的使用。


先说一下DataStream提供的DataGeneratorSource

DataGeneratorSource

描述

DataGeneratorSource抽象了数据生成器,可以轻松的生成数据。

DataGeneratorSource有状态、可以并行。

DataGeneratorSource的构造器需要传入dataGeneratorrowsPerSecond两个参数:

public DataGeneratorSource(DataGenerator<T> generator, long rowsPerSecond) {
   
    this.generator = generator;
    this.rowsPerSecond = rowsPerSecond;
}

DataGenerator是一个数据生成器接口,Flink内部提供了SequenceGeneratorRandomGenerator,分别用来生成序列数据和随机数据。

rowsPerSecond每秒生成的行数,默认是Long.MAX_VALUE

DataGenerator的泛型就是发送到下游的数据类型。


我们使用DataGeneratorSource的时候,就可以利用SequenceGeneratorRandomGenerator提供的方法来生成数据。

在Flink Table的DataGenTableSourceFactory源码中实现了RowGenerator来生成RowData,我们可以参考其源码自定义DataGenerator来生成我们自己的类数据。

样例代码

这里自定义一个DataGenerator类来生成TrafficData流量数据。

import org.apache.commons.math3.random.RandomDataGenerator;
import org.apache.flink.api.common.functions.RuntimeContext;
import org.apache.flink.runtime.state.FunctionInitializationContext;
import org.apache.flink.streaming.api.functions.source.datagen.DataGenerator;


public class TrafficData {
   

    // 用户id
    private long userId;
    // 用户所属城市id
    private int cityId;
    
  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值