Flink(五)转换算子

1.flatMap 数据扁平化操作

    val data: DataSet[String] = env.readTextFile(inputPath)
    //3.对数据进行切分及其处理
    val value: DataSet[String] = data.flatMap( ( _.split(",")) )

2.map 改变其数据结构

    //3.对数据进行切分及其处理
    val value: DataSet[(String, String)] = data.map(
      d => {
        val strings: Array[String] = d.split(",")
        (strings(0), strings(3))
      }
    )

3.filter 过滤数据

val streamFilter = stream.filter{ x => x == 1}

4.keyby 根据key进行分区(DataStream  KeyedStream:逻辑地将一个流拆分成不相交的分区,每个分区包含具有相同 key 的元素,在内部以 hash 的形式实现的)

    //处理数据
    val sensor: DataStream[SensorReading] = sensorData.map(
      data => {
        val dataStr = data.split(",")
        SensorReading(dataStr(0).trim, dataStr(1).trim.toLong, dataStr(2).trim.toDouble)
      }
    )
     .keyBy("id")

5.reduce 对数据进行聚合

//KeyedStream → DataStream:一个分组数据流的聚合操作,合并当前的元素和上次聚合的结果,产//生一个新的值,返回的流中包含每一次聚合的结果,而不是只返回最后一次聚合的最终结果。
    val sensor: DataStream[SensorReading] = sensorData.map(
      data => {
        val dataStr = data.split(",")
        SensorReading(dataStr(0).trim, dataStr(1).trim.toLong, dataStr(2).trim.toDouble)
      }
    )
        .keyBy("id")
//        .sum(2)
        .reduce((x , y) => SensorReading(x.id,x.timestamp+10,x.temprature+1))

6.sum()

    val sensor: DataStream[SensorReading] = sensorData.map(
      data => {
        val dataStr = data.split(",")
        SensorReading(dataStr(0).trim, dataStr(1).trim.toLong, dataStr(2).trim.toDouble)
      }
    )
        .keyBy("id")
        .sum(2)
        

7.Split

DataStream  → SplitStream:根据某些特征把一个 DataStream 拆分成两个或者多个 DataStream。

8.Select

 

SplitStream→ DataStream:从一个 SplitStream 中获取一个或者多个 DataStream。

 

val splitStream = stream2

.split( sensorData => {

if (sensorData.temperature > 30) Seq("high") else Seq("low")

} )

val high = splitStream.select("high") val low = splitStream.select("low")

val all = splitStream.select("high", "low")

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Flink中的算子可以分为三类:转换算子、聚合算子和窗口算子。下面对它们进行详细介绍。 1. 转换算子 转换算子用于将一个数据流转换为另一个数据流,常用的转换算子有: - Map:将每个输入元素应用到一个函数上,输出一个新元素。 - FlatMap:将每个输入元素应用到一个函数上,输出零个、一个或多个新元素。 - Filter:将每个输入元素应用到一个谓词上,输出满足谓词条件的元素。 - KeyBy:根据指定的键将流分组。 - Reduce:对分组后的流中的元素进行归约操作。 2. 聚合算子 聚合算子用于对数据流进行聚合操作,常用的聚合算子有: - Sum:对输入元素进行求和操作。 - Min:对输入元素进行求最小值操作。 - Max:对输入元素进行求最大值操作。 - Count:对输入元素进行计数操作。 3. 窗口算子 窗口算子用于将数据流分割为有限大小的窗口,并对窗口中的元素进行操作,常用的窗口算子有: - Tumbling Window:将数据流分成不重叠的固定大小的窗口。 - Sliding Window:将数据流分成固定大小的窗口,并且这些窗口可以重叠。 - Session Window:将数据流根据一定的时间间隔将数据流分成不固定长度的窗口。 除了以上算子Flink还提供了一些其他的算子,例如: - Union:将两个或多个数据流合并为一个数据流。 - Connect和CoMap:用于将两个数据流连接在一起,并在连接后对两个数据流进行不同的转换操作。 - Iterate:允许在数据流上进行迭代操作。 总结:Flink中的算子非常丰富,可以满足各种需求,通过合理使用这些算子,可以轻松构建出高效、可扩展的实时数据处理系统。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值