一、RDD算子
Spark提供了丰富的用于操作RDD的方法,这些方法被称为算子。一个创建完成的RDD只支持两种算子:转化算子和行动算子。
二、准备
(一)准备数据文件
1.在 /home 目录下创建 words.txt 文件,在文件中写入一段数据
2.将 words.txt
上传到HDFS系统的 /park 目录里 (创建/park命令:hdfs dfs -mkdir /park)
命令:hdfs dfs -put words.txt /park
3.查看HDFS系统 /park/words.txt内容
命令:hdfs dfs -cat /park/words.txt
(二)启动Spark Shell
1.启动HDFS服务
命令:start-dfs.sh
2.启动Spark服务
进入Spark的sbin
目录执行命令:./start-all.sh