使用scala
有一文本word.txt,现用scala进行行数统计。
1、先要启动 hdfs ,用 jps 查看是否启动成功
2、cd 至 hadoop 的安装目录下 usr/lib/hadoop,将文件 word.txt 复制到我们创建的hadoop用户下,不用 cd 好像也可以
./bin/hdfs dfs -put ~/Documents/word.txt /user/hadoop,可用 hdfs dfs -ls /user/hadoop 命令进行查看
3、再打开spark-shell ,加载hdfs里的文件,“hdfs://localhost:9000/”是前面介绍Hadoop安装内容时确定下来的端口地址9000。实际上,也可以省略不写,如下三条语句都是等价的:
scala>
4、统计行数:lines.count()val lines = sc.textFile("hdfs://localhost:9000/user/hadoop/word.txt") val lines
= sc.textFile("/user/hadoop/word.txt") val lines = sc.textFile("word.txt")
5、输出第一行:lines.first()
6、输出包含单词 girl 的行: val pl=lines.filter(line => line.contains("girl"))
输出 包含该单词的第一行:pl.first()
然后,我想感叹,机器好喜欢抽风啊