sparkpython效率_《Spark数据分析:基于Python语言 》 —1.2 Spark简介

1.2 Spark简介

Apache Spark是为了提升Hadoop中MapReduce的效率而创建的。Spark还提供了无可匹敌的可扩展性,是数据处理中高效的瑞士***,提供SQL访问、流式数据处理、图计算、NoSQL处理、机器学习等功能。

1.2.1 Spark背景

Apache Spark是开源的分布式数据处理项目,由Matei Zaharia在2009年创建于加州大学伯克利分校RAD实验室。Spark是作为科研项目Mesos的一部分创建出来的,设计初衷是寻找作为MapReduce的替代品来进行资源调度和系统协调。(关于Mesos的更多信息可以参考http://mesos.apache.org/)

Spark成为了在Hadoop上使用传统MapReduce的一种替代品,因为传统MapReduce并不适合交互式查询,或者实时的低延迟的应用等场景。Hadoop的MapReduce实现的主要缺点是映射阶段和归约阶段之间的中间数据始终都会持久化到硬盘上。

作为MapReduce的替代品,Spark实现了一个分布式的容错性内存结构,名为弹性分布式数据集(RDD)。Spark在多节点上尽可能多地使用内存,显著提高了整体性能。Spark可以复用这些内存结构,使得Spark不仅适用于交互式查询,也能适用于迭代型机器学习应用。

Spark是用Scala编写的,而后者是基于Java虚拟机(JVM)和Java运行时构建的。因此Spark成为了跨平台应用,既能运行在Windows上也能运行在Linux上。很多人认为Spark会是Hadoop数据处理的未来。

Spark让开发者可以创建复杂的多阶段数据处理流程,提供了高级API和容错的框架,这样开发者可以专注于逻辑,而不用分心于硬件故障这样的基础架构或环境方面的问题。

Spark是Apache软件基金会的顶级项目,拥有来自Facebook、雅虎、英特尔、Netflix、Databricks等公司和其他一些公司的超过400名代码贡献者和代码提交者。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值