在Spark字数统计示例中,将找出指定文件中存在的每个单词的出现频率。在这里,我们使用Scala语言来执行Spark操作。
执行Spark字数计算示例的步骤
在此示例中,查找并显示每个单词的出现次数。在本地计算机中创建一个文本文件并在其中写入一些文本。
$ nano sparkdata.txt
检查sparkdata.txt文件中写入的文本。
$ cat sparkdata.txt
在HDFS中创建一个目录,保存文本文件。
$ hdfs dfs -mkdir /spark
将HDD上的sparkdata.txt 文件上传到特定目录中。
$ hdfs dfs -put /home/yiibai/sparkdata.txt /spark
现在,按照以下命令在Scala模式下打开spark。
$ spark-shel