Spark初识(学习总结一)

Apache Spark是一个用于大规模数据处理的统一分析引擎,以其运行速度快、易用性好、通用性强和到处运行的特点而备受关注。Spark支持在local、standalone、yarn和mesos四种运行模式下工作,可在不同集群环境中部署。Spark生态圈包括Spark Core、Spark Streaming、Spark SQL、MLlib、GraphX等多个组件,提供批处理、流处理、SQL查询和图形计算等功能。
摘要由CSDN通过智能技术生成

一、什么是spark

官网在此

Apache Spark™是用于大规模数据处理的统一分析引擎。
美国加州大学伯克利分校AMP实验室开发的大数据处理框架。
Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目。
Spark可以用R语言、Java、Scala和python进行编写。使用R语言编写占到极少数,python编写spark效率不及Java和Scala,Java编写代码量多。Scala在编写spark占到很大优势,Scala是一种面向对象、函数式编程语言,能够轻松操作分布式数据集。

二、Spark四大特点

1、运行速度快
spark运行基于内存,运行效率为Hadoop–Map Reduce的100倍。
引入DAG执行引擎。

2、易用性好
Spark可以用R语言、Java、Scala和python进行编写。使用R语言编写占到极少数,python编写spark效率不及Java和Scala,Java编写代码量多。Scala在编写spark占到很大优势,Scala是一种面向对象、函数式编程语言,能够轻松操作分布式数据集。

3、通用性强
在Spark生态圈中,Spark SQL,Spark Streaming,MLib(machine learning),GraphX四个组件无缝集成。

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值