Spark shell提供了一种学习API的简单方法,以及一种以交互方式分析数据的强大工具。它可以在Scala(在Java VM上运行,因此是使用现有Java库的好方法)或Python中使用。
scala 命令行启动方式 ./bin/spark-shell
python 命令行启动方式 ./bin/pyspark
下面我们用scala的方式启动
读取本地文件README.md,并统计
命令交互窗也支持Linux 传统的 tab补全还是比较好用
下面再来一个入门的统计
统计spark出现的次数。
shell只是提供给我们一个更便捷的学习方式,具体的任务还需要编写代码提交运行。