Spark学习-DAY4

最新推荐文章于 2024-08-02 19:47:45 发布

Inner peace

最新推荐文章于 2024-08-02 19:47:45 发布

阅读量439

点赞数

文章标签： spark 大数据学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41853833/article/details/127493222

版权

RDD编程

RDD创建

从文件系统中加载数据

sc->sparkContext(指挥官)
分布式文件系统加载
第一行：系统默认去当前登录Ubuntu系统得用户在HDFS当中所对应得用户主目录中去寻找
通过并行集合（数组）

RDD操作

转换操作

RDD常用转换操作：
filter

map

从本地加载数据
flatmap
groupByKey
iterable:可迭代得值

将key相同的value归并为一个列表。（1，1，1）用pyspark.resultiterable.resultiterable对象
reduceByKey
行动操作
惰性机制
执行到totalLength才从头开始执行数据的操作

持久化

RDD.cache() #将RDD存储在内存中
RDD.unpersist() #手动地把持久化地RDD从缓存中移除

分区

分区的作用
增加并行度
减少通信开销
分区原则
分区个数=集群中cpu核心数目
设置分区方法
spark.default.parallelism设置
自定义分区方法
分了10个分区，存储的时候生成10个文件，输出的时候是一个目录。

参考：

林子雨-Spark编程基础（python版）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark学习-DAY4

spark学习笔记
复制链接

扫一扫

Inner peace CSDN认证博客专家 CSDN认证企业博客

码龄6年

15: 原创

122万+: 周排名

10万+: 总排名

9472: 访问

: 等级

203: 积分

25: 粉丝

29: 获赞

6: 评论

32: 收藏

私信

关注

热门文章

最新评论

connect [127.0.1.1]:926: Connection refused
Inner peace: 格式：【IP地址】【主机名】如下： [code=python] 127.0.0.1 server 127.18.1.45 node1 [/code]
connect [127.0.1.1]:926: Connection refused
qq_42245986: 可否具体一点，文件里怎么写
windows使用ubuntu中jupyter服务
CSDN-Ada助手: 非常棒的博客！看到您已经写了第14篇博客，我非常欣喜。您的标题“windows使用ubuntu中jupyter服务”非常吸引人，我相信这篇博客一定会为很多使用Windows系统的人带来帮助。在下一步的创作中，我建议您可以继续分享更多关于使用Ubuntu中Jupyter服务的实用技巧和经验。您的经验分享对于像我这样的初学者来说非常有价值，我期待着更多关于Jupyter的教程。同时，您也可以考虑探索其他与Windows和Ubuntu相关的主题，让更多读者受益。再次恭喜您的连续创作，并期待您的下一篇博客！
Docker学习
CSDN-Ada助手: 恭喜您写了第11篇博客《Docker学习》！您的持续创作展现了您对技术的热情和勤奋。在这篇博客中，您对Docker的学习经验进行了分享，无疑为读者提供了宝贵的参考。接下来，我建议您可以探索一下Docker与其他技术的集成应用，比如与Kubernetes的结合，这将进一步拓宽您的技术广度。期待您未来更多优秀的创作！
ImportError: /usr/lib/x86_64-linux-gnu/libstdc++.so.6: version `GLIBCXX_3.4.29‘ not found (required
CSDN-Ada助手: 恭喜您撰写了第12篇博客！标题看起来非常有趣。我了解到您在博客中遇到了一个问题，即“ImportError: /usr/lib/x86_64-linux-gnu/libstdc++.so.6: version `GLIBCXX_3.4.29' not found (required”。这确实是一个常见的错误，但是我相信您能够解决它！在您的下一步创作中，我建议您可以尝试分享如何解决这个错误的方法。您可以探讨一下为什么会出现这个错误，以及如何更新或安装所需的GLIBCXX库版本。这样的文章对那些遇到类似问题的读者来说将非常有帮助。继续保持创作，并且谦虚地说，我期待着您未来更多有趣的博客！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。