Flink 基本转换算子(Transformation) Map Filter FlatMap

自定义源算子
import org.apache.flink.streaming.api.functions.source.SourceFunction

import java.util.Calendar
import scala.util.Random

/**
 * DATE:2022/10/4 0:03
 * AUTHOR:GX
 */
case class Event(user:String,url:String,timestamp:Long)
class ClickSource extends SourceFunction[Event]{
  //ParallelSourceFunction[Event] 算子可以设置并行度
  //SourceFunction[Event] 并行度必须是 1
  //标志位
  var running = true

  override def run(sourceContext: SourceFunction.SourceContext[Event]): Unit = {
    //随机数生成器
    val random = new Random()
    //定义随机数范围
    val users = Array("Mary","Alice","Bob","Cary","Leborn")
    val urls = Array("./home","./cart","./fav","./prod?id=1","./prod?id=2","./prod?id=3")

    //用标志位作为循环判断条件,不停的发送数据
    while (running) {
      //随机生成一个event
      val event = Event(users(random.nextInt(users.length)),
        urls(random.nextInt(urls.length)),
        Calendar.getInstance.getTimeInMillis)
      //调用ctx的方法向下游发送数据
      sourceContext.collect(event)
      //每隔1秒发送一条数据
      Thread.sleep(1000)
    }
  }


  override def cancel(): Unit = running = false
}
Flink程序

import org.apache.flink.api.common.functions.{FilterFunction, FlatMapFunction, MapFunction}
import org.apache.flink.streaming.api.scala.{StreamExecutionEnvironment, createTypeInformation}
import org.apache.flink.util.Collector

/**
 * DATE:2022/10/4 12:01
 * AUTHOR:GX
 */
object Transformastion {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)

    //读取自定义数据源
    val stream = env.addSource(new ClickSource)
    //注意!!!对于一个非并行的算子而言,并行度必须是 1
    //若想要并行处理,需要实现一个ParallelSourceFunction(自定义源算子继承ParallelSourceFunction),算子并行度才可以设置多个
    //提取每次点击事件的用户名\
    //1.使用匿名函数
    stream.map(_.user).print("1")
    //2.实现MapFunction接口
    stream.map(new UserExtractor).print("2")
    //3.使用匿名函数
    stream.filter(_.user == "Mary").print("3")
    //4.实现FilterFunction接口
    stream.filter(new UserFilter).print("4")
    //5.测试flatMap
    stream.flatMap(new UserFlatMap).print("5")

    env.execute()
  }
  class UserExtractor extends MapFunction[Event,String] {//[输入数据类型,输出数据类型]
    override def map(t: Event): String = t.user
  }
  class UserFilter extends FilterFunction[Event] {
    override def filter(t: Event): Boolean = t.user == "Leborn"
  }
  class UserFlatMap extends FlatMapFunction[Event,String] {
    override def flatMap(value: Event, out: Collector[String]): Unit = {
      //如果当前数据是Mary的点击事件,那么就直接输出User
      if (value.user == "Mary") {
        out.collect(value.user)
      }
      //如果当前数据是Leborn的点击事件,那么就直接输出User和Url
      else if (value.user == "Leborn") {
        out.collect(value.user)
        out.collect(value.url)
      }
    }
  }
}

 

Flink中的Transformation算子是指将一个数据流转换为另一个数据流的算子。这些算子可以被视为数据流的转换函数,可以对数据流进行各种操作,如过滤、映射、聚合等。在Flink中,Transformation算子可以分为以下几类: 1. Map:将输入的每个元素转换为一个新的元素,并将其输出到下游算子。 2. Filter:根据给定的条件,过滤出符合条件的元素,并将其输出到下游算子。 3. FlatMap:将输入的每个元素转换为零个或多个新的元素,并将它们输出到下游算子。 4. KeyBy:按照指定的Key对输入的数据进行分组,以便进行聚合操作。 5. Reduce:将输入的元素进行聚合,并将聚合结果输出到下游算子。 6. Aggregations:对输入的元素进行聚合操作,如计算最小值、最大值、平均值等。 7. Window:对输入的数据流进行窗口化操作,以便进行基于时间或其他属性的聚合操作。 8. Join:将两个或多个数据流进行连接操作,以便进行关联分析。 9. CoGroup:将两个或多个数据流进行关联分析操作,并将结果输出到下游算子。 10. Union:将多个数据流合并为一个数据流,并将其输出到下游算子。 这些Transformation算子Flink中非常重要的组成部分,可以帮助我们完成各种数据处理任务。在实际应用中,我们可以根据具体的业务需求选择合适的算子组合,从而实现对数据流的高效处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值