课堂回顾:
- maven构建spark开发环境与测试
- 引入winutils
- 配置spark-core依赖
- Scala实现spark Wordcount 代码编写
- Spark wordcount 打包部署
- 上传运行
- Spark常用算子
- 什么是算子
- 算子的重要作用
- 算子分类
- 转换算子
- Value型转换算子:其处理的数据项是value型
- Key-value型转换算子:其处理的数据是key-value型
- 行动算子
- foreach算子:无输出
- saveAsTextFile算子:保存为文本文件
- saveAsObjectFile算子:保存为对象
- 常用算子分析与应用
- Map
- flatMap
- mapPartitions
- Glom
- union算子
- groupBy算子
- filter算子
- distinct算子
- cache算子
- Key-value转换型算子
- mapValues算子
- combineByKey算子
- reduceByKey算子
- join算子
- 行动算子:此种算子会触发sparkContext提交作业。触发了RDD DAG的执行
- 无输出型:不落到文件或是hdfs的作用
- foreach算子
- HDFS输出型
- saveAsTestFile算子
- Scala集合和数据类型
- collect算子
- collectAsMap算子
- lookup算子
- reduce算子
- fold算子
- 无输出型:不落到文件或是hdfs的作用
- 转换算子