大数据生态和Spark简介

Spark是由AMP实验室开发的内存计算大数据框架,它提供了快速、通用和交互式的编程体验,支持Scala、Java、Python和R语言。相较于Hadoop,Spark克服了表达能力有限、磁盘IO开销大、延迟高等问题,通过内存计算和DAG执行引擎提升了性能,成为Apache软件基金会的重要项目,被腾讯、淘宝等公司广泛应用于大数据分析。
摘要由CSDN通过智能技术生成

Spark简介:

Spark最初由美国加州大学伯克利分校(UC Berkeley)的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。2013年Spark加入Apache孵化器项

Spark的主要特点:

运行速度快:使用DAG执行引擎以支持循环数据流与内存计算

容易使用:支持使用Scala、Java、Python和R语言进行编程,可以通过Spark Shell进行交互式编程

通用性:Spark提供了完整而强大的技术栈,包括SQL查询、流式计算、机器学习和图算法组件

运行模式多样:可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中,并且可以访问HDFS、Cassandra、HBase、Hivev等多种数据源目后发展迅猛,如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一(Hadoop、Spark、Storm)。

Spark如今已吸引了国内外各大公司的注意,如腾讯、淘宝、百度、亚马逊等公司均不同程度地使用了Spark来构建大数据分析应用,并应用到实际的生产环境中。

图:Spark与Hadoop对比

Hadoop与Spark的对比,Hadoop存在如下一些缺点

1.表达能力有限

2.磁盘IO开销大

3.延迟高

4.任务之间的衔接涉及IO开销

5.在前一个任务执行完成之前,其他任务就无法开始,难以胜任复杂、多阶段的计算任务

而Spark在借鉴Hadoop MapReduce优点的同时,很好地解决了MapReduce所面临的问题 相比于Hadoop MapReduce。

Spark主要具有如下优点:

Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多种数据集操作类型,编程模型比Hadoop MapReduce更灵活 Spark提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高 Spark基于DAG的任务调度执行机制,要优于Hadoop MapReduce的迭代执行机制。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值