RDD基本命令

最新推荐文章于 2024-01-11 20:04:18 发布

Fantastic_Liar

最新推荐文章于 2024-01-11 20:04:18 发布

阅读量712

点赞数

分类专栏：数据科学文章标签： Spark rdd

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Fantastic_Liar/article/details/82050565

版权

数据科学专栏收录该内容

4 篇文章 0 订阅

订阅专栏

sc.master

'local[*]'

create RDD demo

intRDD=sc.parallelize([3,1,2,5,6])
intRDD.collect()

[3, 1, 2, 5, 6]

stringRDD=sc.parallelize(["Apple","Orange","Banana","Grape","Apple"])
stringRDD.collect()

['Apple', 'Orange', 'Banana', 'Grape', 'Apple']

单RDD转换

map

nameFunction and noNameFunction

def addone(x):
    return (x+1)
intRDD.map(addone).collect()

[4, 2, 3, 6, 7]

intRDD.map(lambda x: x+1).collect()

[4, 2, 3, 6, 7]

stringRDD.map(lambda x:'fruit:'+x).collect()

['fruit:Apple', 'fruit:Orange', 'fruit:Banana', 'fruit:Grape', 'fruit:Apple']

filter

intRDD.filter(lambda x: x<3).collect()

[1, 2]

intRDD.filter(lambda x:1<x and x<5).collect()

[3, 2]

stringRDD.filter(lambda x: "ra" in x).collect()

['Orange', 'Grape']

distinct

intRDD.distinct().collect()

[1, 5, 2, 6, 3]

stringRDD.distinct().collect()

['Orange', 'Apple', 'Banana', 'Grape']

randomSplit

sRDD=intRDD.randomSplit([0.4,0.6])
sRDD[0].collect()

[1, 2]

sRDD[1].collect()

[3, 5, 6]

groupby

gRDD=intRDD.groupBy(
        lambda x:'even' if (x%2==0) else 'odd').collect()

print('even')
print(list(gRDD[0][1]))
print('odd')
print(gRDD[1][1])

even
[2, 6]
odd
<pyspark.resultiterable.ResultIterable object at 0x7f9ba805d438>

多个RDD转换运算

intRDD1=sc.parallelize([3,1,2,5,5])
intRDD2=sc.parallelize([5,6])
intRDD3=sc.parallelize([2,7])

并集union

intRDD1.union(intRDD2).union(intRDD3).collect()

[3, 1, 2, 5, 5, 5, 6, 2, 7]

交集intersection

intRDD1.intersection(intRDD2).collect()

[5]

差集 subtract

intRDD1.subtract(intRDD2).collect()

[1, 2, 3]

笛卡尔积乘积 cartesian

intRDD1.cartesian(intRDD2).collect()

[(3, 5),
 (3, 6),
 (1, 5),
 (1, 6),
 (2, 5),
 (2, 6),
 (5, 5),
 (5, 5),
 (5, 6),
 (5, 6)]

动作运算

first() 读取第一项数据
take(2) 取出前两项数据
takeOrdered(3) 从小到大排序，取出前三项数据
takeOrdered(3,key=lambda x:-x) 从大到小排序，取出前三项

统计功能

stats()
min()
max()
stdev()
count()
sum()
mean()

RDD key-value transformation

kvRDD1=sc.parallelize([(3,4),(3,6),(5,6),(1,2)])
kvRDD2=sc.parallelize([(3,8)])

kvRDD1.collect()

[(3, 4), (3, 6), (5, 6), (1, 2)]

kvRDD2.collect()

[(3, 8)]

join

kvRDD1.join(kvRDD2).collect()

[(3, (4, 8)), (3, (6, 8))]

leftOuterJoin

kvRDD1.leftOuterJoin(kvRDD2).collect()

[(1, (2, None)), (3, (4, 8)), (3, (6, 8)), (5, (6, None))]

rightOuterJoin

kvRDD1.rightOuterJoin(kvRDD2).collect()

[(3, (4, 8)), (3, (6, 8))]

subtractByKey

kvRDD1.subtractByKey(kvRDD2).collect()

[(1, 2), (5, 6)]

RDD key-value Action

key-value first

kvFirst=kvRDD1.first()
print(kvFirst[0])
print(kvFirst[1])

3
4

key count

kvRDD1.countByKey()

defaultdict(int, {1: 1, 3: 2, 5: 1})

create key-value map –>collectAsMap

KV=kvRDD1.collectAsMap()
KV

{1: 2, 3: 6, 5: 6}

print(type(KV))
print(KV[3])

<class 'dict'>
6

input key to get value

kvRDD1.lookup(3)

[4, 6]

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
RDD基本命令

sc.master'local[*]'create RDD demointRDD=sc.parallelize([3,1,2,5,6])intRDD.collect()[3, 1, 2, 5, 6]stringRDD=sc.parallelize(["Apple","Orange","Banana","Grape","Apple"])stringRDD.co...
复制链接

扫一扫

专栏目录

Fantastic_Liar CSDN认证博客专家 CSDN认证企业博客

码龄6年

17: 原创

13万+: 周排名

128万+: 总排名

6万+: 访问

: 等级

705: 积分

26: 粉丝

20: 获赞

15: 评论

158: 收藏

私信

关注

热门文章

分类专栏

容器
spark 1篇
测试 1篇
数据科学 4篇
Spring 1篇
sql 4篇
爬虫 1篇
面试总结 3篇
无线定位技术概述
问题 1篇
工具 1篇
hive 3篇
Linux 1篇

最新评论

Hive中利用正则表达式过滤列名
amountainman: "?+.+"这一串数量限定符到底是什么意思啊？
用户留存模型
向彪-blockchain: 写的很详细，学习到很多，感谢大佬！
批量转换word为pdf
etoa: 感谢分享。不过这种方法是调用office，太慢。
批量转换word为pdf
spinstein: C:\Users\******\Desktop\1>python words2pdfs.py Traceback (most recent call last): File "words2pdfs.py", line 2, in <module> from win32com import client ModuleNotFoundError: No module named 'win32com'
记录pyspark中的sortBykey和sortBy的问题
Fantastic_Liar 回复 alanxiecsdn: 你是正确的，sortByKey里的切片仅限于key值。在你的例子中，我尝试将x[1]改为x[2]时，报错string index out of range，这是因为“14”的index超出list范围。感谢你的帮助！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。