Spark读取文件

最新推荐文章于 2023-10-04 15:21:04 发布

weixin_30432007

最新推荐文章于 2023-10-04 15:21:04 发布

阅读量647

点赞数

文章标签：大数据 scala 开发工具

原文链接：http://www.cnblogs.com/30go/p/8482854.html

版权

spark默认读取的是hdfs上的文件。

如果读取本地文件，则需要加file:///usr/local/spark/README.md。 (测试时候发现，本地文件必须在spark的安装路径内部或者平行)

读取hdfs文件, 可以这样指定路径 hdfs://ns1/tmp/test.txt。

如果不指定任何前缀，则使用hdfs的默认路径/user/data/

启动spark-shell:

由于已经在spark-defaults.conf中指定了spark.master，所以启动时默认以standalone模式加载

1. 读取本地文件:

spark安装路径下/usr/local/spark/README.md

然鹅使用其他路径 /home/hadoop/king/spark/wordcount/data/test.txt

2. 读取hdfs文件

hdfs://ns1/tmp/test.txt

3. 不加任何前缀

默认识别的hadoop用户的目录，将刚才的test.txt拷贝到目录：hdfs://ns1/user/hadoop/

再次读取：

在实际的使用中推荐使用第二种方式处理数据。

转载于:https://www.cnblogs.com/30go/p/8482854.html

weixin_30432007

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark读取文件

spark默认读取的是hdfs上的文件。如果读取本地文件，则需要加file:///usr/local/spark/README.md。(测试时候发现，本地文件必须在spark的安装路径内部或者平行)读取hdfs文件, 可以这样指定路径 hdfs://ns1/tmp/test.txt。如果不指定任何前缀，则使用hdfs的默认路径/user/data/启动spark-shell...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。