scala读取本地hdfs_怎样使用Spark Shell来读取HDFS文件？

最新推荐文章于 2024-08-02 09:44:40 发布

Rainbow用户

最新推荐文章于 2024-08-02 09:44:40 发布

阅读量640

点赞数

文章标签： scala读取本地hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35219046/article/details/112019211

版权

本文介绍了如何通过Spark-Shell使用Scala读取HDFS中的文件进行单词计数。首先，需要在spark-env.sh配置文件中添加HADOOP_CONF_DIR参数指向Hadoop配置目录。然后启动Hadoop和Spark服务。接着，在Spark-Shell中编写Scala代码，利用sc.textFile()、flatMap()、map()和reduceByKey()操作读取并处理文件。最后，退出Spark-Shell客户端。

摘要由CSDN通过智能技术生成

下面通过启动Spark-Shell，并且使用Scala语言开发单词计数的Spark程序，现有文本文件words.txt(读者需要在本地创建文件并上传至指定目录)在HDFS中的/spark/test路径下，且文本内容如下。hello hadoop

hello spark

hellp itcast

如果使用Spark Shell来读取HDFS中的/spark/test/ words.txt文件，具体步骤如下：

1.整合Spark与HDFS

Spark加载HDFS上的文件，需要修改spark-env.sh配置文件，添加HADOOP_CONF_DIR配置参数，指定Hadoop配置文件的目录，添加配置参数如下。\#指定HDFS配置文件目录

export HADOOP_CONF_DIR=/export/servers/hadoop-2.7.4/etc/hadoop

2.启动Hadoop 、Spark服务

配置完毕后，启动Hadoop集群服务，并重新启动Spark集群服务，使配置文件生效。

3.启动Spark-Shell编写程序

启动Spark-Shell交互式界面，执行命令如下。$ bin/spark-shell--master local[2]

执行上述命令，Spark-Shell启动成功后，就会进入如图1所示的程序交互界面。

图1 spark-shell模式

Spark-Shell本身就是一个Driver，它会初始化一个SparkContext对象为“sc”，用户可以直接调用。下面编写Scala代码实现单词计数，具体代码如下。sc

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。