spark快速大数据分析（3）

最新推荐文章于 2020-09-11 16:42:15 发布

代码_c

最新推荐文章于 2020-09-11 16:42:15 发布

阅读量590

点赞数

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014381464/article/details/80225247

版权

本文介绍了Spark中的核心概念——弹性分布式数据集(RDD)，详细讲解了RDD的基础知识，包括其分布式元素集合的特性，以及创建和操作RDD的方法。RDD支持转换和行动两种操作，其中转换操作是惰性的，只有在行动操作时才会触发计算。通过RDD.persist()可以实现RDD的缓存，以提高重用效率。此外，还探讨了如何创建RDD，包括从外部数据和并行化驱动器程序中的集合。最后，概述了转化操作和行动操作的区别及其作用。

摘要由CSDN通过智能技术生成

spark官方文档中的快速入门指南：http://spark.apache.org/docs/latest/quick-start.html

本书的github仓库：https://github.com/databricks/learning-spark

__________________________________________

RDD基础

spark核心概念、核心抽象
弹性分布式数据集Resilient Distributed Database
分布式的元素集合

spark中，所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。

每个RDD都被分为多个分区，这些分区运行在集群中的不同节点上。

RDD可以包含python、Java、Scala中的任意类型的对象，甚至可以包含用户自定义的对象。

RDD支持两种类型的操作：转换操作（transformation）和行动操作（action）。区别在于spark计算RDD的方式不同。spark会惰性计算RDD，只有第一次在一个行动操作中用到时，才会真正计算。

如果想在多个行动操作中重用同一个RDD，可以使用RDD.persist()让spark把这个RDD缓存下来，这样第一次对持久化的RDD计算后，spark会把RDD的内容保存在内存中࿰

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark快速大数据分析（3）

spark官方文档中的快速入门指南：http://spark.apache.org/docs/latest/quick-start.html本书的github仓库：https://github.com/databricks/learning-spark__________________________________________RDD基础spark核心概念、核心抽象弹性分布式数据集Resil...
复制链接

扫一扫

专栏目录

代码_c CSDN认证博客专家 CSDN认证企业博客

码龄10年

119: 原创

19万+: 周排名

168万+: 总排名

9万+: 访问

: 等级

1686: 积分

18: 粉丝

48: 获赞

3: 评论

161: 收藏

私信

关注

热门文章

分类专栏

spark 13篇
python 3篇
大数据 3篇
论文 2篇
算法 4篇
ps 2篇
软件
leetcode 83篇
linux 5篇
c++ 1篇
Word
历史

最新评论

sublime运行python程序的控制台输入
磕碜先生: 我加了F5的快捷键，系统内置快捷键也并没有使用F5，但是按了没由运行，其他的也没反应。。。楼主知道原因么？
Word页眉页码、公式编号、引用文献编号
首席前端开发深套: 编码
spark云计算环境下的大数据
qq_20649859: 你好，你有实现这篇论文的算法吗？我初看这篇论文，尝试去实现算法，但是不知道数据垂直划分那里是怎么处理的，方便的话可以交流下。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。