Spark基础知识系列（1）

最新推荐文章于 2024-11-01 15:04:31 发布

walker_storage

最新推荐文章于 2024-11-01 15:04:31 发布

阅读量362

点赞数

分类专栏： Spark 文章标签： spark mapreduce Hadoop RDD

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/microsoft2014/article/details/54388059

版权

Spark 专栏收录该内容

6 篇文章 1 订阅

订阅专栏

Spark的设计目的是克服MapReduce模型缺陷，能在多场景处理大规模数据。它的计算
模型是基于内存的抽象数据类型RDD.适用于批处理,迭代式计算模型。
Spark体系结构包括Spark SQL,Spark Streaming,MLlib,GraphX.
Core库中包括：

Spark Context
抽象数据集RDD
调度器Scheduler
Shuffle
Serializer等

Hadoop
因其设计之初没有考虑到效率，导致在迭代计算问题时效率很低，主要原因归结于其MapReduce计算模型太单一且计算过程中的Shuffle过程对本地磁盘的I/O消耗太大，不能适应复杂需求。其次，Hadoop面对SQL交互式查询场景,实时流处理场景时力不从心，不得不与第三方框架相结合，从而导致在不同类型业务在衔接过程中因涉及不同的数据格式，因而在共享和转换数据过程中消耗大量资源。

Spark
作为基于内存计算大数据平台以其高速、多场景适用的特点脱颖而出.
设计目的是全栈式解决批处理、结构化数据查询、流计算等场景，此外还体现在对存储层（HDFS、cassandra）和资源管理层（Mesos、YARN）的支持。
Spark的核心RDD抽象数据集能在不同的应用中使用，大大减少了数据转换的消耗和运维管理的资源占用。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。