Flink_输入数据集 Data Sources

最新推荐文章于 2022-12-02 07:00:00 发布

BigMoM1573

最新推荐文章于 2022-12-02 07:00:00 发布

阅读量507

点赞数

分类专栏： Flink 文章标签： Flink

本文链接：https://blog.csdn.net/qq_44509920/article/details/107434212

版权

文章目录

Data Sources 是什么呢？就字面意思其实就可以知道：数据来源。 Flink 做为一款流式计算框架，它可用来做批处理，即处理静态的数据集、历史的数据集；也可以用来做流处理，即实时的处理些实时数据流，实时的产生数据流结果，只要数据源源不断的过来，Flink 就能够一直计算下去，这个 Data Sources 就是数据的来源地。 flink 在批处理中常见的 source 主要有两大类。

基于本地集合的 source（Collection-based-source）
基于文件的 source（File-based-source）

1.基于本地集合的 source（Collection-based-source）

在 flink 最常见的创建 DataSet 方式有三种。

使用 env.fromElements()，这种方式也支持 Tuple，自定义对象等复合形式。
使用 env.fromCollection(),这种方式支持多种 Collection 的具体类型
使用 env.generateSequence()方法创建基于 Sequence 的 DataSet

package com.czxy.flink.batch.source.collection

import org.apache.flink.api.scala.ExecutionEnvironment

//使用 env.fromElements()， 这种方式也支持 Tuple， 自定义对象等复合形式
object BatchFromElementsDemo {
   
  def main(args: Array[String]): Unit = {
   
    //1.创建执行环境
    val env: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment
    //2.使用 env.fromElements构建数据集
    import org.apache.flink.api.scala._
    val sourceElement: DataSet[String] = env.fromElements("hadoop hadoop hive flink")
    //3.输出测试
    sourceElement.print()
  }
}

常见的创建DataSet方法

import org.apache.flink.api.scala.ExecutionEnvironment 
import scala.collection.mutable
import scala.collection.mutable.{
   ArrayBuffer, ListBuffer}

/** 
* 读取集合中的批次数据 
*/
object BatchFromCollection {
   
def main(args: Array[String]): Unit = {
   

//获取flink执行环境
val env = ExecutionEnvironment.getExecutionEnvironment
//导入隐式转换
import org.apache.flink.api.scala._

//0.用element创建DataSet(fromElements)
val ds0: DataSet[String] = env.fromElements("spark", "flink")
ds0.print()

 //1.用Tuple创建DataSet(fromElements)
val ds1:<

最低0.47元/天解锁文章

BigMoM1573

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Flink_输入数据集 Data Sources

文章目录1.基于本地集合的 source（Collection-based-source）2.基于文件的 source（File-based-source）3.基于文件的 source（遍历目录）Data Sources 是什么呢？就字面意思其实就可以知道：数据来源。 Flink 做为一款流式计算框架，它可用来做批处理，即处理静态的数据集、历史的数据集；也可以用来做流处理，即实时的处理些实时数据流，实时的产生数据流结果，只要数据源源不断的过来，Flink 就能够一直计算下去，这个 Data Sour
复制链接

扫一扫