PySpark实践


大数据入门与实战-PySpark的使用教程:https://www.jianshu.com/p/5a42fe0eed4d


PySpark – SparkContext

class pyspark.SparkContext (
   master = None,
   appName = None, 
   sparkHome = None, 
   pyFiles = None, 
   environment = None, 
   batchSize = 0, 
   serializer = PickleSerializer(), 
   conf = None, 
   gateway = None, 
   jsc = None, 
   profiler_cls = <class 'pyspark.profiler.BasicProfiler'>
)

PySpark – RDD

 有两种方法:

转换 - 这些操作应用于RDD以创建新的RDDFiltergroupBymap是转换的示例

操作 - 这些是应用于RDD的操作,它指示Spark执行计算并将结果发送回驱动程序 

count() // 返回RDD中的元素个数
collect() // 返回RDD中的所有元素
foreach(func) // 仅返回满足foreach内函数条件的元素
filter(f) // 返回一个包含元素的新RDD,它满足过滤器内部的功能
map(f, preservesPartitioning = False) // 通过将该函数应用于RDD中的每个元素来返回新的RDD
reduce(f) // 执行指定的可交换和关联二元操作后,将返回RDD中的元素
join(other, numPartitions = None) // 它返回RDD,其中包含一对带有匹配键的元素以及该特定键的所有值

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值