Flink学习17:算子介绍flatMap

1.flatmap核心包含两部操作:

1.将数据切分

2.拍扁

 

示例:

输出结果:
import org.apache.flink.api.scala.createTypeInformation
import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment

object flatMapTest {
  def main(args: Array[String]): Unit = {

    //create env
    val env = StreamExecutionEnvironment.getExecutionEnvironment

    //create ds
    val ds = env.fromElements("hadoop is good", "spark is fast", "flink is better")

    val flatMapedDs = ds.flatMap(_.split(" "))

    flatMapedDs.print()

    env.execute()


  }

}

输出结果:

2.自定义flatmap方法

核心操作:

1.继承FlatMapFunction类

2.重写flatMap方法

示例:

import org.apache.flink.api.common.functions.FlatMapFunction
import org.apache.flink.api.scala.createTypeInformation
import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.util.Collector

object myFlatMapTest {

  //defined my flatMap func

  //judge the word length,bigger than special length then split,else do nothing
  class myFlatMap(maxWordLength:Int) extends FlatMapFunction[String, String]{
    override def flatMap(t: String, collector: Collector[String]): Unit = {

      if (t.length>maxWordLength){
        t.split(" ").foreach(collector.collect)
      }
    }
  }

  def main(args: Array[String]): Unit = {

    //create env
    val env = StreamExecutionEnvironment.getExecutionEnvironment

    //create ds
    val ds = env.fromElements("this is a good morning, long long long and long", "that day is friday")

//use my flatMap func

    val flatMapedDs = ds.flatMap(new myFlatMap(25))

    flatMapedDs.print()

    env.execute()
 

  }

}



输出结果:

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Flink中的算子可以分为三类:转换算子、聚合算子和窗口算子。下面对它们进行详细介绍。 1. 转换算子 转换算子用于将一个数据流转换为另一个数据流,常用的转换算子有: - Map:将每个输入元素应用到一个函数上,输出一个新元素。 - FlatMap:将每个输入元素应用到一个函数上,输出零个、一个或多个新元素。 - Filter:将每个输入元素应用到一个谓词上,输出满足谓词条件的元素。 - KeyBy:根据指定的键将流分组。 - Reduce:对分组后的流中的元素进行归约操作。 2. 聚合算子 聚合算子用于对数据流进行聚合操作,常用的聚合算子有: - Sum:对输入元素进行求和操作。 - Min:对输入元素进行求最小值操作。 - Max:对输入元素进行求最大值操作。 - Count:对输入元素进行计数操作。 3. 窗口算子 窗口算子用于将数据流分割为有限大小的窗口,并对窗口中的元素进行操作,常用的窗口算子有: - Tumbling Window:将数据流分成不重叠的固定大小的窗口。 - Sliding Window:将数据流分成固定大小的窗口,并且这些窗口可以重叠。 - Session Window:将数据流根据一定的时间间隔将数据流分成不固定长度的窗口。 除了以上算子Flink还提供了一些其他的算子,例如: - Union:将两个或多个数据流合并为一个数据流。 - Connect和CoMap:用于将两个数据流连接在一起,并在连接后对两个数据流进行不同的转换操作。 - Iterate:允许在数据流上进行迭代操作。 总结:Flink中的算子非常丰富,可以满足各种需求,通过合理使用这些算子,可以轻松构建出高效、可扩展的实时数据处理系统。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值