对spark中RDD的API的理解

最新推荐文章于 2020-12-02 21:56:43 发布

make_APP

最新推荐文章于 2020-12-02 21:56:43 发布

阅读量391

点赞数

分类专栏：分布式系统_spark 文章标签： spark RDD

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/make_APP/article/details/50585849

版权

分布式系统_spark 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

链接：https://www.zybuluo.com/jewes/note/35032

对RDD,和RDD中map，reduce等API的理解

我的理解如下：

RDD:
Resilient Distributed Datasets（弹性分布式数据集）
把所有数据抽象成RDD，可以看做是一个不连续的数组，这样子就可以分区存了。
如
scala> val a = sc.parallelize(1 to 9, 3)
这样子就可以分布到不同机器==》并行处理了。然后对数据进行操作就是对RDD进行变换。然后输出结果。
但是如何把数据变成RDD之后带来了几个问题。
如何保证运算后的正确性
容错率有多高？
见作者的论文。https://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf
map：
将RDD中的每个元素映射到新的RDD中，map中可给一个映射函数，对象是每个元素
但如果不想操作每个元素呢
出现了mappartitions，按分区操作
还有mapvalues等
reduce：
讲RDD中两两元素通过输入函数后，变成一个，然后与接下来一个继续运算，直到剩下最后一个元素
变形如：
reduceByKey

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
对spark中RDD的API的理解

链接：https://www.zybuluo.com/jewes/note/35032对RDD,和RDD中map，reduce等API的理解我的理解如下：RDD:Resilient Distributed Datasets（弹性分布式数据集）把所有数据抽象成RDD，可以看做是一个不连续的数组，这样子就可以分区存了。如scala> val a = sc.paral
复制链接

扫一扫

专栏目录

make_APP CSDN认证博客专家 CSDN认证企业博客

码龄10年

46: 原创

20万+: 周排名

173万+: 总排名

11万+: 访问

: 等级

1642: 积分

9: 粉丝

13: 获赞

5: 评论

21: 收藏

私信

关注

热门文章

分类专栏

最新评论

pycharm
朱竹清小姐姐: 谢谢小哥哥，❤。
树莓派实战4：配置一小时发送一次邮件
redflash: 谢谢，很详细!
树莓派实战3：配置开机自启动
make_APP: 这句话 “ifconfig | grep 'Bcast' | cut -d B -f 1 >> /home/pi/Desktop/ip.log” 可以获得ip地址，通常我们开关机的时候ip才会变化，把他放入rc.local即可，linux在init的时候会启动rc.local的服务。但有些地方是不间断reset你的ip，所以我在实战4里面加到了crontab里面，像这样 */60 * * * * sh /home/pi/Desktop/check.sh。在check.sh中，不断更新ip地址。你输入crontab -e 后有反应吗？他会让你选择一个编辑器来打开，打开的文件有很多#，你在最后一行填写定时任务即可。
树莓派实战3：配置开机自启动
cyang812: 你好，看了你写的教程，已成功将ip发送到自己的邮箱。可是我想问的是，每一次执行mail.py程序，只是讲之前桌面上生成的Ip.log文件发送出去，并不是此次开机后分到的ip发送出去锕。另外开机自启这个功能，我也没有实现，cortab -e 这条命令无法执行，或者说是无法修改该文件的内容，获取权限后也不行。
树莓派实战3：配置开机自启动
cyang812: 你好，看了你写的教程，已成功将ip发送到自己的邮箱。可是我想问的是，每一次执行mail.py程序，只是讲之前桌面上生成的Ip.log文件发送出去，并不是此次开机后分到的ip发送出去锕。另外开机自启这个功能，我也没有实现，cortab -e 这条命令无法执行，或者说是无法修改该文件的内容，获取权限后也不行。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。