本文记录下在python环境中对RDD的一些操作方法
1. 创建RDD
关于读取文件创建RDD的方法在前面文章已经介绍过来,这里就不做介绍了。
还有一种自定义的
data_rdd = sc.parallelize([('Alina',26),('Tom',22),('Sky',12),('Blue',21)])
2. lambda 表达式
在RDD重最常用到的就是lambda和Map一起使用的,比如
raw_data.map(lambda x:x.split(",")[0:3])
上面的意思就是讲RDD中每一行按照,拆分,然后去前3个元素出来
3. filter 转换 ,可以从数据集中选择元素
raw_filter = raw_data.filter(lambda x:x[1]=='a' )
raw_filter.count()
4. distinct 转换
用来指定列中不同的值,一般用来检验数据集,注意此方法是高开销方法,应该谨慎使用。
distinct_user = raw_data.map(lambda x:x[1]).distinct()
distinct_user.c