python语言spark弹性分布式数据集-RDD（Spark快速大数据分析）（上）

最新推荐文章于 2022-02-11 23:04:40 发布

MeKa

最新推荐文章于 2022-02-11 23:04:40 发布

阅读量672

点赞数 1

分类专栏： spark 文章标签： spark学习总结

本文链接：https://blog.csdn.net/qq_38601362/article/details/88261111

版权

spark 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

官方文档：http://spark.apache.org/

1.开始：

Linux命令：spark-submit 加py文件名

py文件开始：

import pyspark

conf=pyspark.SparkConf().setMaster("local").setAppName("My App")
sc=pyspark.SparkContext(conf=conf)

日常使用方法：

collect():返回rdd中的数据。

saveAsTextFile():数据保存操作，把rdd列表里的元素转到文件系统（默认一个元素一行）。传入一个文件地址，文件需要未被创建，原因是如果文件地址不小心相同，可能会发生数据覆盖，数据存在等错误（hadoop权威指南中写的）。

persist():数据持久保持在内存中的操作，spark默认rdd使用一次后就会从内存中移除，好像是模式的原因，先组织好操作步骤（没有先计算），直到行动操作（书上说是reduce,fold,aggregate等会输出的操作，saveAsTextFile,collect等应该也算），然后才计算，用这个（persist）方法，使用后数据仍然保存在内存中。如未使用，想再次用需要再次计算(如，在spark机器学习中对函数的参数进行评估需要重复运算，以找到最合适的参数)，重新计算会浪费一些时间和资源，用这个方法后就会保存在内存中，下次就可以直接用。如可以在保持分区的情况，像一些需要混洗的操作（就是需要明确查找，如排序等，需要hash()等分区后，才可以找到），如果频繁使用，每次不但要重新计算，还需要重新hash()分区，浪费时间和资源。后面的操作如果不发生可以改变分区的操作，保存还可以持续。不要担心内存满了怎么办，好像是有机制的吧，很多都是书上写的，具体单机也无从考证，不过挺有道理的。

2.方法：

（1）数据读入方法：

textFile():读取一个文件的地址，以单行为一条数据

wholeTextFiles():读取一个文件夹地址，以其中所有的目标文件为数据，一个文件作为一条二元组型(key-value)数据，文件地址为key，文件内容为value,如：("file///:home/hadoop/spark/test","0\n1\n2\n3\n")

parallelize():传入一个list

注意：文件末尾尽量在数据末尾，随手一个回车就会增加一条数据，数据处理方式不对可能会报错，测试在Linux默认文件系统下完成，其它的文件系统如S3,hdfs等自行测试。

（2）单行数据Value处理方法：

map():传入一个方法，这个方法会逐条处理每一条数据，新的集为传入方法return的内容。

count():返回rdd内的数据个数。不是rdd，下面很多如：reduce，fold，aggregate等也是这样。

take():传入一个数字，返回数字个数的元素的rdd。相类似的还有top()。

flatmap():传入一个方法，逐条处理数据，与map()不同的是，return返回的内容如果是list列表，将会被自动切分，如：return ["coffee","panda"] flatmap()会自动切分成["coffee","panda",加其它数据],而map()会是这样的[["coffee","panda"],加其它数据]。

filter():传入一个函数，在函数体内进行筛选，return一个bool型，返回ture会被保留，其它的不会保留。

countByValue():各元素在rdd中出现的个数，用字典格式包装，如一个"panda"数据，会是这样：defaultdict(<class 'int'>, {"panda":1,其它数据}），和后面countByKey()不同的是，这个Value就是这一条数据，一个元素，如一个("panda",1)数据，会是这样：defaultdict(<class 'int'>, {('panid', 1): 1,其它数据}）。

reduce():把所有数据结合成一条数据，传入一个包含两个形参的方法，第一个形参为第一个数据或者前面方法结合的半成品（学名叫Combiner组合器），第二个为后面需要结合的数据，用最简单的lambda写一个累加方法,如：（lambda x,y:x+y）。分区：因为在单机测试，强行通过partitionBy(2)增加一个分区会报没有数据的错误，应该有分区聚合操作，具体不知。

fold():传入一个初始值，可以为其它格式，比如（0，0），再传入一个函数，包含两个形参，第一个形参为初始值或处理后的半成品，第二个为需要处理的数据，如计算平均值：先map(lambda x:(int(x),1)),再fold((0,0),(lambda x,y:(x[0]+y[0],x[1]+y[1])) 最后得到一个二元组（累加数，数据个数），平均值=二元组[0]/二元组[1]。分区：因为是单机模式，强行分区会报数据不足的错误，但根据print打印中间结果分析，每个分区算出各自的结果(使用一次初始值)，然后仍然是用传入的函数，用初始值把各分区的结果加起来（再次使用初始值）。

aggregate():传入三个参数，第一个是初始值，第二个是分区内的计算函数，第三个是分区间的计算函数。这个函数结合了map()和fold()，提高了性能，如计算平均值aggregate((0,0),(lambda x,y:(x[0]+int(y),x[1]+1)),(lambda x,y:(x[0]+y[0],x[1]+y[1])))。结果和上面的fold()一样，节省了一步操作，提高了性能。分区：和fold()相似，不同的是分区内和分区间用的不是同一个函数。

distinction():去除rdd中的重复数据，如：[1,2,1,1,1].distinct()，结果是[1,2]。

（3）两个rdd之间的“伪集合操作”（学了一些基础的，没发现“真-集合操作”）：

union():传入一个rdd，返回一个包含两个rdd中所有元素的rdd。这个是rdd数据间的相加（+）操作。

subtract():传入一个rdd，返回使用这个方法的rdd里的数据移除和传入rdd中相同的数据。这个是rdd数据间的相减（-）操作。

intersection():仍然只传入一个rdd，返回两个rdd中相同的数据，自带distinction()操作，如：[1,2,3,3].intersection([3,4,5])，结果是[3]。虽然看不出速度咋样，书上说因为需要数据混洗，效率比union()差，想一下也对，毕竟要找相同的元素，随便hash()分区一下也会消耗时间和资源。这个是rdd数据间的相交（倒着的U）操作。

cartesian():还是传入一个rdd，返回两个rdd之间的笛卡儿积，以二元组包装，如：[1,2].cartesian([3,4])，结果是[(1,3),(1,4),(2,3),(2,4)]。这是rdd数据间的相乘（*）操作，没发现相除方法，没有头绪。