Flink DataStream API - Data Source获取数据源

基于文件获取数据源

在底层,Flink将文件读取过程分成两个子任务,即目录监视和数据读取。每个子任务都由一个单独的实体实现。监视由单个非并行(parallelism = 1)任务实现,而读取由多个并行运行的任务执行。后者的并行性等于作业并行性。单个监视任务的作用是扫描目录(定期或仅扫描一次,这取决于watchType),找到要处理的文件,将它们分成几部分,并将这些部分分配给下游的读取器。读取器将读取实际数据。每个拆分只能由一个读取器读取,而一个读取器可以逐个读取多个拆分。

// 获取运行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

// 逐行读取文本文件,即符合规范的文件,并将它们作为字符串返回。
DataStream<String> dataStream = env.readTextFile(filePath)

// 按指定的文件输入格式指定读取(一次)文件。
DataStream<String> dataStream = env.readFile(fileInputFormat, path)

// 这是前两个方法在内部调用的方法,它根据给定的fileInputFormat读取路径中的文件,根据所提供的watchType
// 此源可以定期监视(每隔一段时间ms)给定路径文件中的新数据
DataStream<String> dataStream = envreadFile(fileInputFormat, path, watchType, interval, pathFilter, typeInfo) 

基于Socket获取数据源

// 获取运行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

// 根据socket获取数据源
DataStream<String> dataStream = env.socketTextStream(hostname, port);

基于Collection获取数据源

// 获取运行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

// 从Java Java.util.Collection创建数据流。集合中的所有元素必须属于同一类型。
DataStream<String> dataStream = env.fromCollection(Collection) 

// 从迭代器创建数据流。该类指定迭代器返回的元素的数据类型。
DataStream<String> dataStream = env.fromCollection(Iterator, Class)

// 从给定的对象序列创建数据流。所有对象必须属于同一类型。
DataStream<String> dataStream = env.fromElements(T ...) 

// 并行地从迭代器创建数据流。该类指定迭代器返回的元素的数据类型。
DataStream<String> dataStream = env.fromParallelCollection(SplittableIterator, Class) 

// 并行生成给定间隔中的数字序列
DataStream<String> dataStream = env.generateSequence(from, to)

基于连接器(connectors)获取数据源

// 获取运行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

// 基于kafka
String kafkaTopic = params.get("kafka-topic");
String brokers = params.get("brokers", "localhost:9092");
DataStream<String> streamSource = env..addSink(new FlinkKafkaProducer010(brokers, kafkaTopic, (SerializationSchema) new EventDeSerializer()));

自定义Source

  • 通过实现sourceFunction接口来自定义无并行度(并行度为1)的source
    • 实现SourceFunction
    • 一般不需要实现容错性保证
    • 处理好cancel方法(cancel应用的时候,这个方法会被调用)
  • 通过实现ParallelSourceFunction接口或继承RichParallelSourceFunction类自定义有并行度的source。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值