Flink DataSet API之Transformations

最新推荐文章于 2023-04-11 16:38:59 发布

Jiny_li

最新推荐文章于 2023-04-11 16:38:59 发布

阅读量521

点赞数

文章标签： Flink

本文链接：https://blog.csdn.net/Jiny_li/article/details/86299034

版权

算子介绍

Map：输入一个元素，然后返回一个元素，中间可以做一些清洗转换等操作

FlatMap：输入一个元素，可以返回零个，一个或者多个元素

MapPartition：类似map，一次处理一个分区的数据

Filter：过滤函数，对传入的数据进行判断，符合条件的数据会被留下

Reduce：对数据进行聚合操作，结合当前元素和上一次reduce返回的值进行聚合操作，然后返回一个新的值

Aggregate：sum、max、min等

Distinct：返回一个数据集中去重之后的元素，data.distinct()

Join：内连接

OuterJoin：外链接

Cross：获取两个数据集的笛卡尔积

Union：返回两个数据集的总和，数据类型需要一致

First-n：获取集合中的前N个元素

Sort Partition：在本地对数据集的所有分区进行排序，通过sortPartition()的链接调用来完成对多个字段的排序

Join相关算子demo

import org.apache.flink.api.scala.ExecutionEnvironment

import scala.collection.mutable.ListBuffer

object BatchDemoJoinScala {
  def main(args: Array[String]): Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    import org.apache.flink.api.scala._
    val data1 = ListBuffer[Tuple2[Int, String]]()
    data1.append((1, "zs"))
    data1.append((2, "ls"))
    data1.append((3, "ww"))

    val data2 = ListBuffer[Tuple2[Int, String]]()
    data2.append((1, "beijing"))
    data2.append((2, "shanghai"))
    data2.append((3, "guangzhou"))
    val text1 = env.fromCollection(data1)
    val text2 = env.fromCollection(data2)
    text1.join(text2).where(0) //指定第一个数据集中需要进行比较的元素角标
      .equalTo(0) //指定第二个数据集中需要进行比较的元素角标
      .apply((first, second) => (first._1, first._2, second._2))
      .print()
    println("===============================")
    // 左外连接  second这个tuple中的元素可能为null
    text1.leftOuterJoin(text2).where(0)
      .equalTo(0)
      .apply((first, second) => {
      if (second == null) {
        (first._1, first._2, "null")
      } else {
        (first._1, first._2, second._2)
      }
    }).print()
    println("===============================")
    // 右外连接   first这个tuple中的数据可能为null
    text1.rightOuterJoin(text2).where(0).equalTo(0).apply((first, second) => {
      if (first == null) {
        (second._1, "null", second._2)
      } else {
        (first._1, first._2, second._2)
      }
    }).print()
    println("===============================")
    // 全外连接  first和second这两个tuple都有可能为null
    text1.fullOuterJoin(text2).where(0).equalTo(0).apply((first, second) => {
      if (first == null) {
        (second._1, "null", second._2)
      } else if (second == null) {
        (first._1, first._2, "null")
      } else {
        (first._1, first._2, second._2)
      }
    }).print()
    println("===============================")
    // cross join
    text1.cross(text2).print()
  }
}

First-n、Sort Partition相关算子demo

import org.apache.flink.api.common.operators.Order
import org.apache.flink.api.scala.ExecutionEnvironment

import scala.collection.mutable.ListBuffer

object BatchDemoFirstNScala {
  def main(args: Array[String]): Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    import org.apache.flink.api.scala._
    val data = ListBuffer[Tuple2[Int, String]]()
    data.append((2,"zs"))
    data.append((4,"ls"))
    data.append((3,"ww"))
    data.append((1,"xw"))
    data.append((1,"aw"))
    data.append((1,"mw"))
    val text = env.fromCollection(data)
    //获取前3条数据，按照数据插入的顺序
    text.first(3).print()
    println("==============================")
    //根据数据中的第一列进行分组，获取每组的前2个元素
    text.groupBy(0).first(2).print()
    println("==============================")
    //根据数据中的第一列分组，再根据第二列进行组内排序[升序]，获取每组的前2个元素
    text.groupBy(0).sortGroup(1,Order.ASCENDING).first(2).print()
    println("==============================")
    //不分组，全局排序获取集合中的前3个元素
    text.sortPartition(0, Order.ASCENDING).sortPartition(1, Order.DESCENDING).first(3).print()

  }
}