spark读取hdfs路径下的数据_项目实战从0到1之Spark（2）Spark读取和存储HDFS上的数据...

最新推荐文章于 2023-06-15 10:50:02 发布

胡安黄

最新推荐文章于 2023-06-15 10:50:02 发布

阅读量1.6k

点赞数

文章标签： spark读取hdfs路径下的数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30412847/article/details/111913647

版权

本篇来介绍一下通过Spark来读取和HDFS上的数据，主要包含四方面的内容：将RDD写入HDFS、读取HDFS上的文件、将HDFS上的文件添加到Driver、判断HDFS上文件路径是否存在。

1、启动Hadoop

首先启动咱们的Hadoop，在hadoop的目录下执行下面的命令：

查看是否启动成功：

2、将RDD写入HDFS

先创建一个SparkSession：

将RDD写入HDFS使用的函数是saveAsTextFile：

接下来，我们查看一下是否保存成功：

可以看到RDD在HDFS上是分块存储的，由于我们只有一个分区，所以只有part-0000。假设我们存储一个包含两个分区的RDD：

再次查看，可以看到有part-00000和part-00001:

3、读取HDFS上的文件

读取HDFS上的文件，使用textFile方法：

读取时是否加最后的part-00000都是可以的，当只想读取某个part，则必须加上。

4、将HDFS上的文件添加到Driver

有时候，我们并不想直接读取HDFS上的文件，而是想对应的文件添加到Driver上，然后使用java或者Scala的I／O方法进行读取，此时使用addFile和get方法来实现：

打印的路径十分奇怪，没有截取完全：

然后有了path之后，就可以使用scala的I／O进行读取：

输出为：

5、判断HDFS上文件路径是否存在

在读取HDFS地址或者将文件传输到Driver上的时候，首先需要判断文件是否存在。单机环境下，代码如下：

输出结果为：

而在公司中的大规模集群环境下，通常的代码如下：

如果在本地单机环境下仍然使用上面的代码，会报如下的错误：

所以对比两份代码你可以发现，在本地环境中，我们首先使用getFileSystem获取了hdfs文件系统中的路径信息，从而避免了上面的错误。

好了，今天的知识就分享到这里，小伙伴们都掌握了么？

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark读取hdfs路径下的数据_项目实战从0到1之Spark（2）Spark读取和存储HDFS上的数据...

本篇来介绍一下通过Spark来读取和HDFS上的数据，主要包含四方面的内容：将RDD写入HDFS、读取HDFS上的文件、将HDFS上的文件添加到Driver、判断HDFS上文件路径是否存在。1、启动Hadoop首先启动咱们的Hadoop，在hadoop的目录下执行下面的命令：查看是否启动成功：2、将RDD写入HDFS先创建一个SparkSession：将RDD写入HDFS使用的函数是saveAsT...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。