pyspark中读取文件后的RDD操作

本文详细介绍了在Python环境中使用PySpark对RDD的各种操作,包括创建、使用lambda表达式与Map结合处理数据、filter选择元素、distinct获取唯一值、repartition调整分区、take取数、collect获取所有元素、reduce聚合元素及count统计数量以及foreach遍历处理。
摘要由CSDN通过智能技术生成

本文记录下在python环境中对RDD的一些操作方法 

1. 创建RDD 

关于读取文件创建RDD的方法在前面文章已经介绍过来,这里就不做介绍了。

还有一种自定义的

data_rdd = sc.parallelize([('Alina',26),('Tom',22),('Sky',12),('Blue',21)])

2. lambda 表达式 

在RDD重最常用到的就是lambda和Map一起使用的,比如

raw_data.map(lambda x:x.split(",")[0:3]) 

上面的意思就是讲RDD中每一行按照,拆分,然后去前3个元素出来 

3. filter 转换 ,可以从数据集中选择元素 

raw_filter = raw_data.filter(lambda x:x[1]=='a' ) 
raw_filter.count()

4.  distinct 转换 

用来指定列中不同的值,一般用来检验数据集,注意此方法是高开销方法,应该谨慎使用。

distinct_user = raw_data.map(lambda x:x[1]).distinct()
distinct_user.c
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值