大数据入门与实战-PySpark的使用教程:https://www.jianshu.com/p/5a42fe0eed4d
PySpark – SparkContext
class pyspark.SparkContext (
master = None,
appName = None,
sparkHome = None,
pyFiles = None,
environment = None,
batchSize = 0,
serializer = PickleSerializer(),
conf = None,
gateway = None,
jsc = None,
profiler_cls = <class 'pyspark.profiler.BasicProfiler'>
)
PySpark – RDD
有两种方法:
转换 - 这些操作应用于RDD以创建新的RDD。Filter,groupBy和map是转换的示例
操作 - 这些是应用于RDD的操作,它指示Spark执行计算并将结果发送回驱动程序
count() // 返回RDD中的元素个数
collect() // 返回RDD中的所有元素
foreach(func) // 仅返回满足foreach内函数条件的元素
filter(f) // 返回一个包含元素的新RDD,它满足过滤器内部的功能
map(f, preservesPartitioning = False) // 通过将该函数应用于RDD中的每个元素来返回新的RDD
reduce(f) // 执行指定的可交换和关联二元操作后,将返回RDD中的元素
join(other, numPartitions = None) // 它返回RDD,其中包含一对带有匹配键的元素以及该特定键的所有值