为什么要使用Spark？

最新推荐文章于 2024-07-02 14:42:02 发布

weixin_34301307

最新推荐文章于 2024-07-02 14:42:02 发布

阅读量162

点赞数

文章标签：大数据 scala 人工智能

现有的hadoop生态系统中存在的问题

1）使用mapreduce进行批量离线分析；

2）使用hive进行历史数据的分析；

3）使用hbase进行实时数据的查询；

4）使用storm进行实时的流处理；

5）。。。。。。

导致：维护成本高、学习成本高

Spark的出现弥补了Hadoop生态系统中的缺陷，使用spark搞定”一切“

选用spark的原因

1、One stack to rule them all

　　1）应用于流式计算的Spark Streaming

　　2）应用于即席查询（Ad-hoc）的Spark SQL

　　3）应用于机器学习（数据挖掘）的MLlib

　　4）应用于图处理的GraphX

　　5）将R扩展成并行计算的SparkR

　　6）还有权衡精度和速度的查询引擎BlinkDB

2、速度快（运行/开发）

　　运行速度快的原因：

　　1）基于内存计算（从表象来看）

　 2）DAG（从深层次来看）：把执行过程做成一张图，再来优化

开发速度快：scala代码更优雅（但是还得学习scala啦。。。。。。）

Spark和MapReduce对比

1）调度：启动map和reduce任务需要时间

2）数据共享：从HDFS上读取数据执行，每次迭代均要重写将结果写回到HDFS上，后续的迭代如果需要前面运行的结果数据时需要再去HDFS上读取，以此类推，如果迭代N次。。。

3）输出结果数据多副本：数据需要额外的复制、序列化、磁盘/IO的开销

Spark和MapReduce的区别：迭代时数据写入内存，而不是HDFS上，进而减少大量的磁盘IO开销。

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34301307

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

大数据时代，为什么使用Spark框架？

lmalds的专栏

04-19

4498

1、轻量级快速处理 Spark的快速是相当于Hadoop等其他分布式集群而言，其快速主要原因是基于内存的计算，减少了IO的操作，使用RDD可以将中间结果存放在内存或磁盘，以便之后做迭代计算时重复使用。 Spark的轻量级体现在其仅仅是一个计算框架，且提供了Spark SQL、Spark Streaming、MLLib以及Graph X等框架，这些框架提供了轻量级的API来处理数

Hadoop Shuffle阶段为什么要排序？Spark为什么采用Sort Shuffle？

upupfeng的博客

08-15

3678

Hadoop shuffle阶段为什么要排序？Spark Shuffle为什么从最初的Hash Shuffle改成了Sort Shuffle？

参与评论您还未登录，请先登录后发表或查看评论

Spark能做什么？

weixin_34044273的博客

04-10

279

Spark是大数据技术中数据计算处理的王者，能够一次处理PB级的数据，分布在数千个协作的物理或虚拟服务器集群中，它有一套广泛的开发者库和API，并且支持Java，Python，R和Scala等语言，其灵活的特性，适合各种环境，以下是Spark最常见的两种应用场景：离线场景：可以以时间为维度，几年的数据集，或者以业务为维度，某个领域的大数据集等，这种数据我们一般叫做离线数据，或...

12 | 我们为什么需要Spark？

最新发布

qq_37756660的博客

07-02

752

今天我要与你分享的主题是“我们为什么需要 Spark”。也许你之前没有做过大规模数据处理的项目，但是 Spark 这个词我相信你一定有所耳闻。Spark 是当今最流行的分布式大规模数据处理引擎，被广泛应用在各类大数据处理场景。2009 年，美国加州大学伯克利分校的 AMP 实验室开发了 Spark。2013 年，Spark 成为 Apache 软件基金会旗下的孵化项目。而现在，Spark 已经成为了该基金会管理的项目中最活跃的一个。

大数据为什么要选择Spark

南山牧笛的博客

08-25

1866

Spark是一个基于内存计算的开源集群计算系统，目的是更快速的进行数据分析。Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发开发，其核心部分的代码只有63个Scala文件， Spark是一个基于内存计算的开源集群计算系统，目的是更快速的进行数据分析。Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发开发

Spark精华问答 | 为什么要学Spark?

CSDN业界要闻

04-11

363

Hadoop再火，火得过Spark吗？今天我们继续关于Spark的精华问答吧。1Q：什么是Spark？A：简单理解，Spark是在Hadoop基础上的改进，是UCBer...

为什么使用Spark?

bearplayjava的博客

07-26

1843

Apache Spark是一个集群计算引擎，它抽象了底层分布式存储和集群管理，,使它可以插入plugin大量的专门的存储和集群管理工具。Spark支持HDFS, Cassandra, local storage, S3, 甚至传统的关系数据库作为存储层，也可以和集群管理工具YARN, Mesos一起工作，相对集群模式它还有单机模型，Spark已经打破了由Hadoop创造的排序记录，本文介绍Spar...

Hadoop从业者为什么需要Spark？

09-22

Hadoop从业者为什么需要Spark？答案是Hadoop已死，Spark称霸。而Hadoop的死亡过程在2012年已经开始： 1，由于Hadoop自身架构的导致了在离线数据存储分析意外的一切领域都力不从心，理论已经证明MapReduce模型可以...

深入理解Spark RDD——为什么需要RDD?

beliefer的博客

06-11

2667

RDD（Resilient Distributed Datasets，弹性分布式数据集）代表可并行操作元素的不可变分区集合。对于Spark的初学者来说，这个概念会十分陌生。即便是对于一些有Spark使用经验的人，要想说清楚什么是RDD，以及为什么需要RDD还是一件比较困难的事情。本文首先解释第二个问题。为什么需要RDD？以下从数据处理模型、依赖划分原则、数据处理效率及容错处理4个方面解释Spa...

使用spark操作hudi表

03-14

使用spark操作hudi表： 1、查询hudi表数据 2、查看hudi表结构信息

为什么选择spark

qq_43688472的博客

01-05

290

原因随着互联网规模的爆发式增长，不断增加的数据量要求应用程序能够延伸到更大的集群中去计算。与单台机器计算不同，集群计算引发了几个关键问题，如集群计算资源的共享单点宕机（单点死机的意思）节点执行缓慢程序的并行化。针对这几个集群环境的问题，许多大数据处理框架应运而生。比如Google的MapReduce，它提出了简单、通用并具有自动容错功能的批处理计算模型。但是MapReduce对于某些...

为什么要学习SPARK

wspark的博客

07-13

1163

为什么要学习SPARK

Spark精华问答 | 为什么要学Spark？

CSDN云计算

08-01

398

戳蓝字“CSDN云计算”关注我们哦！为什么要学习Spark？作为一个用来实现快速而通用的集群计算的平台。扩展广泛使用的MapReduce计算模型，而且高效地支持更多的计算...

为何选择spark!

qq_42390636的博客

11-28

144

　随着大数据处理的应用场景越来越多，人们对Hadoop的要求也越来越高，开发出的对应的系统也越来越多，人们迫切的需要一个综合的计算框架，Spark应运而生，我们可以看看Spark可以干些什么。　　那么为什么Spark能做到这些？　　首先，我们需要理解Spark中的三大概念： RDD(Resilient Distributed Dataset)。实际上对与开发人员而已它是以一种对象的形式作...

Spark基础-为什么选择spark

Xlucas的博客

04-17

1009

核心 1、spark大数据处理框架 2、RDD表达能力 3、Spark子系统1、Spark大数据处理框架 Mapreduce及各种专有系统中出现的不足，伯克利大学推出了全新的统一大数据处理框架spark，创新性地提供了RDD概念(一种新的抽象的弹性数据集)，在某种程度上spark的对Mapreduce模型的一种扩展，要在Mapreduce上实现其不擅长的计算工作(比如迭代式、交互式和流式

Spark为什么受欢迎

hewdsa的博客

03-17

723

原因1:优秀的数据模型和丰富的计算抽象 Spark出现之前，已经有了非常成熟的计算系统MapReduce，并提供高级API(map/reduce)，在集群中运行计算，提供容错，从而实现分布式计算。虽然MapReduce提供了数据访问和计算的抽象，但是数据的重用只是简单地将中间数据写入一个稳定的文件系统(比如HDFS)，所以会产生数据复制备份、磁盘I/O和数据序列化，所以在多个计算中遇到需要重用中间结果的操作时效率会很低。这种操作非常常见，比如迭代计算、交互式数据挖掘、图形计算等等。在认识到这个问题之后，

为什么越来越多的公司在使用Spark Streaming

洪文聊架构

08-16

1995

为什么越来越多的公司在使用Spark Streaming 1,122 次阅读 - 基础架构作者：孙镜涛 Databricks最近对1400多家Spark用户进行了一次调查，结果显示这些用户对Spark Streaming的使用率与2014年相比增长了56%，另外，有48%的受访者将Spark Streaming标记为最常用的Spark组件。在Spark Stre