RDD创建

最新推荐文章于 2024-06-16 23:15:39 发布

浅汐王

最新推荐文章于 2024-06-16 23:15:39 发布

阅读量1k

点赞数

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32252917/article/details/78213635

版权

本文详细介绍了在Spark中创建RDD的两种方式：从文件系统加载数据和通过并行集合创建，并讨论了RDD的转换和行动操作，以及惰性机制、持久化、分区等关键概念。还特别提到了如何在不同环境下设置默认分区数，以及如何在不同模式下查看打印输出。

摘要由CSDN通过智能技术生成

RDD可以通过两种方式创建：

* 第一种：读取一个外部数据集。比如，从本地文件加载数据集，或者从HDFS文件系统、HBase、Cassandra、Amazon S3等外部数据源中加载数据集。Spark可以支持文本文件、SequenceFile文件（Hadoop提供的 SequenceFile是一个由二进制序列化过的key/value的字节流组成的文本存储文件）和其他符合Hadoop InputFormat格式的文件。

* 第二种：调用SparkContext的parallelize方法，在Driver中一个已经存在的集合（数组）上创建。

从文件系统中加载数据创建RDD

Spark采用textFile()方法来从文件系统中加载数据创建RDD，该方法把文件的URI作为参数，这个URI可以是本地文件系统的地址，或者是分布式文件系统HDFS的地址，或者是Amazon S3的地址等等。

下面请切换回spark-shell窗口，看一下如何从本地文件系统中加载数据：

scala> val lines =sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt")

lines: org.apache.spark.rdd.RDD[String] =file:///usr/local/spark/mycode/rdd/word.txt MapPartitionsRDD[12] at textFile at<console>:27

从执行结果反馈信息可以看出，lines是一个String类型的RDD，或者我们以后可以简单称为RDD[String]，也就是说，这个RDD[String]里面的元素都是String类型。

scala> val lines =sc.textFile("hdfs://localhost:9000/user/hadoop/word.txt")

scala> val lines =sc.textFile("/user/hadoop/word.txt")

scala> val lines =sc.textFile("word.txt")

注意，上面三条命令是完全等价的命令，只不过使用了不同的目录形式，你可以使用其中任意一条命令完成数据加载操作。

在使用Spark读取文件时，需要说明以下几点：

（1）如果使用了本地文件系统的路径，那么，必须要保证在所有的worker节点上，也都能够采用相同的路径访问到该文件，比如，可以把该文件拷贝到每个worker节点上，或者也可以使用网络挂载共享文件系统。

（2）textFile()方法的输入参数，可以是文件名，也可以是目录，也可以是压缩文件等。比如，textFile("/my/direct

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。