Spark简介

一 简介与功能
Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户同时将Spark部署在大量廉价硬件之上,形成集群。
1 分布式计算
2 内存计算
3 容错
4 多计算范式
Spark于2009年诞生于加州大学伯克利分校AMPLab。目前,已经成为Apache软件基金会旗下顶级开源项目。
官网:http://spark.apache.org

二 历史
2009年:Spark诞生于AMPLab
2010年:开源
2013年6月:Apache孵化器项目
2014年2月:Apache顶级项目
Now:Contributors>450人

三 BDSA生态系统

四 专有系统的局限性
1 重复开发
2 系统组合
3 专有系统适用范围局限
4 资源分配与管理

五 Spark优势
1 计算范式支持
打造全栈多计算范式的高效流水线
2 处理速度
轻量级快速处理
3 易用性
易于使用,分布式RDD抽象,Spark支持多语言
4 兼容性
与HDFS等存储层兼容
5  社区活跃度
社区活跃度高
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值