spark,flink算子全家桶详解,

1. map和mapPartition

将DataSet中的每一个元素转换为另外一个元素

示例

使用map操作,将以下数据转换为一个scala的样例类。

“1,张三”, “2,李四”, “3,王五”, “4,赵六”

注意

map和mapPartition的效果是一样的,

但如果在map的函数中,需要访问一些外部存储,如:访问mysql数据库,需要打开连接, 此时效率较低。

而使用mapPartition可以有效减少连接数,提高效率

参考代码



import org.apache.flink.api.scala.ExecutionEnvironment

/**
  * 演示转换操作
  */
object BatchTransformation {
   
  def main(args: Array[String]): Unit = {
   
    //获取env
    val env: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment
    import org.apache.flink.api.scala._

    //map
    val data: DataSet[String] = env.fromCollection(List("1,张三", "2,李四", "3,王五", "4,赵六"))
    case class User(id: String, name: String)
    val userDataSet: DataSet[User] = data.map(text => {
   
      val files = text.split(",")
      User(files(0), files(1))
    })
    userDataSet.print()

    //mapPartition
    val userDataSet2 = data.mapPartition(iter => {
   
        // TODO:打开连接
        iter.map(ele => {
   
          val files = ele.split(",")
          User(files(0), files(1))
        })
        // TODO:关闭连接
      }
    )
    userDataSet2.print()

  }
}

2. flatMap

flatMap的用法和之前学习Spark中的一模一样,今天学习一个新的用法

将DataSet中的每一个元素转换为另一个集合并压平为多个元素

将DataSet中的每一个元素转换为0~n个元素

示例

分别将以下数据,转换成国家、省份、城市三个维度的数据。

将以下数据

​ 张三,中国,江西省,南昌市

​ 李四,中国,河北省,石家庄市

转换为

​ (张三,中国)

​ (张三,中国,江西省)

​ (张三,中国,江西省,南昌市)

​ (李四,中国)

​ (李四,中国,河北省)

​ (李四,中国,河北省,石家庄市)

思路

- 以上数据为一条转换为三条,显然,应当使用flatMap来实现

- 分别在flatMap函数中构建三个数据,并放入到一个列表中

List(

(姓名, 国家),

(姓名, 国家, 省份),

(姓名, 国家, 省份, 城市)

)

参考代码

//flatMap
val data2 = env.fromCollection(List(
  "张三,中国,江西省,南昌市",
  "李四,中国,河北省,石家庄市"
))

//使用flatMap将一条数据转换为三条数据
val resultDataSet: DataSet[(String, String)] = data2.flatMap(text => {
   
    val fieldArr = text.split(",")
    List(
      (fieldArr(0), fieldArr(1)),
      (fieldArr(0), fieldArr(1) , fieldArr(2)),
      (fieldArr(0), fieldArr(1) , fieldArr(2) , fieldArr(3))
    )
  }
)
resultDataSet.print()
//(张三,中国)
//(张三,中国,江西省)
//(张三,中国,江西省,南昌市)
//(李四,中国)
//(李四,中国,河北省)
//(李四,中国,河北省,石家庄市)

3. filter

Filter函数在实际生产中特别实用,数据处理阶段可以过滤掉大部分不符合业务的内容,可以极大减轻整体flink的运算压力

示例:

过滤出来以下以长度>4的单词。

“hadoop”, “hive”, “spark”, “flink”

参考代码

//filter
val wordDataSet = env.fromCollection(List("hadoop", "hive", "spark", "flink"))
val resultDataSet2 = wordDataSet.filter(_.length > 4)
resultDataSet2.print()

4. reduce

可以对一个dataset或者一个group来进行聚合计算,最终聚合成一个元素

示例1

请将以下元组数据,使用reduce操作聚合成一个最终结果

(“java” , 1) , (“java”, 1) ,(“java” , 1)

将上传元素数据转换为(“java”,3)

示例2

请将以下元组数据,下按照单词使用groupBy进行分组,再使用reduce操作聚合成一个最终结果

(“java” , 1) , (“java”, 1) ,(“scala” , 1)

转换为

(“java”, 2), (“scala”, 1)

参考代码

//reduce
val wordCountDataSet: DataSet[(String, Int)] = env.fromCollection(List(("java" , 1) , ("java", 1) ,("java" , 1)))
val resultDataSet3 = wordCountDataSet.reduce((wc1, wc2) => (wc2._1, wc1._2 + wc2._2))
resultDataSet3.print()

//groupBy+reduce
val wordcountDataSet2: DataSet[(String, Int)] = env.fromCollection(List(("java" , 1) , ("java", 1) ,("scala" , 1<
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值