Spark学习记录：RDD 编程

loar_

已于 2022-05-19 00:36:10 修改

阅读量1.7k

点赞数 2

分类专栏： Spark学习记录文章标签： python spark 大数据

于 2022-04-19 23:18:17 首次发布

本文链接：https://blog.csdn.net/loar_/article/details/124274892

版权

本文记录了Spark中RDD的编程经验，包括对包含多个元素的RDD元素的索引和切片操作，使用map函数转换RDD数据形态，通过filter()筛选特定值，以及union()和join()的区别和应用。

摘要由CSDN通过智能技术生成

   最近一直在学习Spark的RDD编程，学习的过程中经常会踩到很多的坑。归根结底，其实是没有理解好RDD编程其中的原理。

学习的过程中值得注意的小细节（个人的一些偏门理解，帮助自己更好掌握）。

1.RDD中的其中一个元素中含有多个元素，类似一个列表在RDD中充当一个元素时，列表的相关的索引查询,切片操作同样适用。

#省略了前面的引用
array = ["Spark is fast","Hadoop is good"]
rdd1 = sc.parallelize(array)
rdd2 = rdd1.map(lambda x:x.split(" ")  #将rdd1中的每个元素中的内容以空格分隔开，得到[['Spark','is','fast'],['Hadoop','is','good']]
rdd3 = rdd2.map(lambda x