用Apache Spark进行大数据处理三

最新推荐文章于 2024-08-18 00:00:00 发布

老吴的私房菜

最新推荐文章于 2024-08-18 00:00:00 发布

阅读量509

点赞数

分类专栏：大数据文章标签： hadoop spark 大数据架构

大数据专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Spark体系架构

Spark体系架构包括如下三个主要组件：

· 数据存储

· API

· 管理框架

接下来让我们详细了解一下这些组件。

数据存储：

Spark用HDFS文件系统存储数据。它可用于存储任何兼容于Hadoop的数据源，包括HDFS，HBase，Cassandra等。

API：

利用API，应用开发者可以用标准的API接口创建基于Spark的应用。Spark提供Scala，Java和Python三种程序设计语言的API。

下面是三种语言Spark API的网站链接。

· Scala API

资源管理：

Spark既可以部署在一个单独的服务器也可以部署在像Mesos或YARN这样的分布式计算框架之上。

下图2展示了Spark体系架构模型中的各个组件。

图2 Spark体系架构

弹性分布式数据集

弹性分布式数据集（基于Matei的研究论文）或RDD是Spark框架中的核心概念。可以将RDD视作数据库中的一张表。其中可以保存任何类型的数据。Spark将数据存储在不同分区上的RDD之中。

RDD可以帮助重新安排计算并优化数据处理过程。

此外，它还具有容错性，因为RDD知道如何重新创建和重新计算数据集。

RDD是不可变的。你可以用变换（Transformation）修改RDD，但是这个变换所返回的是一个全新的RDD，而原有的RDD仍然保持不变。

RDD支持两种类型的操作：

· 变换（Transformation）

· 行动（Action）

变换：变换的返回值是一个新的RDD集合，而不是单个值。调用一个变换方法，不会有任何求值计算，它只获取一个RDD作为参数，然后返回一个新的RDD。

变换函数包括：map，filter，flatMap，groupByKey，reduceByKey，aggregateByKey，pipe和coalesce。

行动：行动操作计算并返回一个新的值。当在一个RDD对象上调用行动函数时，会在这一时刻计算全部的数据处理查询并返回结果值。

行动操作包括：reduce，collect，count，first，take，countByKey以及foreach。

老吴的私房菜

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用Apache Spark进行大数据处理三

Spark体系架构Spark体系架构包括如下三个主要组件：· 数据存储· API· 管理框架接下来让我们详细了解一下这些组件。数据存储：Spark用HDFS文件系统存储数据。它可用于存储任何兼容于Hadoop的数据源，包括HDFS，HBase，Cassandra等。API：利用API，应用开发者可以用标准的API接口创建基于Spark的应用。Spark提供Sca
复制链接

扫一扫

专栏目录

老吴的私房菜 CSDN认证博客专家 CSDN认证企业博客

码龄14年

14: 原创

17万+: 周排名

44万+: 总排名

9万+: 访问

: 等级

951: 积分

69: 粉丝

52: 获赞

5: 评论

150: 收藏

私信

关注

热门文章

分类专栏

最新评论

wireshark过滤语法
CSDN-Ada助手: 非常感谢博主分享关于wireshark过滤语法的文章，我觉得这篇文章非常有价值，可以帮助其他用户更好地了解和掌握wireshark过滤语法。建议下一篇博客可以探讨wireshark的高级用法，比如如何使用wireshark进行网络流量分析和捕获，相信会有更多读者受益。期待您的下一篇文章！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
C&C服务器
erhisme: 了解了还有这么多样的攻击方式,能人太多不安全啊!
学习Python和机器学习的几个不错网址
人工智能AI技术: 写得不错！我最近也在写一系列人工智能教程，通俗易懂，无需高等数学基础，教程也力求风趣幽默。点击我的头像浏览教程。希望更多的朋友加入到人工智能大家庭中，使中国更加强大！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。