spark

最新推荐文章于 2022-12-05 07:41:36 发布

sisteryaya

最新推荐文章于 2022-12-05 07:41:36 发布

阅读量344

点赞数

分类专栏： Sark & Hadoop

本文链接：https://blog.csdn.net/sisteryaya/article/details/72499145

版权

Sark & Hadoop 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

使用scala

有一文本word.txt，现用scala进行行数统计。

1、先要启动 hdfs ，用 jps 查看是否启动成功

2、cd 至 hadoop 的安装目录下 usr/lib/hadoop，将文件 word.txt 复制到我们创建的hadoop用户下，不用 cd 好像也可以

./bin/hdfs dfs -put ~/Documents/word.txt /user/hadoop，可用 hdfs dfs -ls /user/hadoop 命令进行查看

3、再打开spark-shell ，加载hdfs里的文件，“hdfs://localhost:9000/”是前面介绍Hadoop安装内容时确定下来的端口地址9000。实际上，也可以省略不写，如下三条语句都是等价的：

scala>

    val lines = sc.textFile("hdfs://localhost:9000/user/hadoop/word.txt")
    val lines = sc.textFile("/user/hadoop/word.txt")
    val lines = sc.textFile("word.txt")

4、统计行数：lines.count()

5、输出第一行：lines.first()

6、输出包含单词 girl 的行： val pl=lines.filter(line => line.contains("girl"))

输出包含该单词的第一行：pl.first()

然后，我想感叹，机器好喜欢抽风啊

sisteryaya

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark

使用scala有一文本word.txt，现用scala进行行数统计。1、先要启动 hdfs ，用 jps 查看是否启动成功2、cd 至 hadoop 的安装目录下 usr/lib/hadoop，将文件 word.txt 复制到我们创建的hadoop用户下，不用 cd 好像也可以 ./bin/hdfs dfs -put ~/Documents/word.txt
复制链接

扫一扫