Spark简介与功能

Spark是一个提供分布式计算、内存计算和高容错性的大数据处理框架。它支持批处理、流处理、SQL查询、图计算和机器学习等多种计算范式,可在多个运行模式下运行,如local、standalone、yarn和mesos。Spark以其高效的DAG优化和RDD抽象实现快速处理,并通过Lineage实现容错。此外,其广泛兼容性、易用性和活跃社区也是其显著优势。
摘要由CSDN通过智能技术生成

Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。

1.提供分布式计算功能,将分布式存储的数据读入,同时将任务分发到各个节点进行计算;

2.基于内存计算,将磁盘数据读入内存,将计算的中间结果保存在内存,这样可以很好的进行迭代运算;

3.支持高容错;

4.提供多计算范式;


2009年:诞生于AMPLab

2010年:开源

2013年6月:Apache孵化器项目

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值