30分钟概览Spark分布式计算引擎

本文简要介绍了Spark作为Hadoop之后的下一代分布式内存计算引擎,强调其高效性和多框架整合能力。Spark的核心是RDD,弹性分布式数据集,支持transformation和action计算。文章还解释了Spark的Stage和Task划分,以及在互联网公司的实践应用,如实时计算和机器学习平台建设。
摘要由CSDN通过智能技术生成

本文主要帮助初学者快速了解Spark,不会面面俱到,但核心一定点到。

详细内容可参考Spark入门教程-1

Spark是继Hadoop之后的下一代分布式内存计算引擎,于2009年诞生于加州大学伯克利分校AMPLab实验室,现在主要由Databricks公司进行维护(公司创始员工均来自AMPLab),根据本人自2014学习Spark的理解,从下面几个方面介绍。

1、为什么出现Spark?
2、Spark核心是什么?
3、Spark怎么进行分布式计算?
4、Spark在互联网公司的实践应用?

1、为什么出现Spark?

肯定是比Hadoop的MR计算要好,好在如下方面:

  • 高效
  • 多框架整合

1)为什么高效?

  • 相对于Hadoop的MR计算,Spark支持DAG,能缓存中间数据,减少数据落盘次数;
  • 使用多线程启动task,更轻量,任务启动快。计算速度理论上有10-100倍提升。(根据个人工作验证,计算效率相对Hadoop至少是3倍以上)
  • 高度抽象API,代码比MR少2-5倍甚至更多,开发效率高

2)为什么多框架整合?
相对于过去使用Hadoop + Hive + Mahout + Storm 解决批处理、SQL查询和实时处理和机器学习场景的大数据平台架构,其最

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值