spark 算子

课堂回顾:

  1. maven构建spark开发环境与测试
    1. 引入winutils
    2. 配置spark-core依赖
    3. Scala实现spark Wordcount 代码编写
    4. Spark wordcount 打包部署
    5. 上传运行
  2. Spark常用算子
    1. 什么是算子
    2. 算子的重要作用
    3. 算子分类
      • 转换算子
        1. Value型转换算子:其处理的数据项是value型
        2. Key-value型转换算子:其处理的数据是key-value型
      • 行动算子
        1. foreach算子:无输出
        2. saveAsTextFile算子:保存为文本文件
        3. saveAsObjectFile算子:保存为对象
      • 常用算子分析与应用
        1. Map
        2. flatMap
        3. mapPartitions
        4. Glom
        5. union算子
        6. groupBy算子
        7. filter算子
        8. distinct算子
        9. cache算子
      • Key-value转换型算子
        1. mapValues算子
        2. combineByKey算子
        3. reduceByKey算子
        4. join算子
      • 行动算子:此种算子会触发sparkContext提交作业。触发了RDD DAG的执行
        1. 无输出型:不落到文件或是hdfs的作用
          1. foreach算子
        2. HDFS输出型
          1. saveAsTestFile算子
        3. Scala集合和数据类型
          1. collect算子
          2. collectAsMap算子
          3. lookup算子
          4. reduce算子
          5. fold算子

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值