spark综述
一个大数据处理框架
- spark是一个开源分布式计算框架,有着丰富的数据操作方法。不只有mr模型
- 使用scala语言。同时支持python,java,R。对scala和java的支持最全面。
- 可以运行在多个平台上。
- spark特别适合机器学习的迭代操作,RDD特性,高容错性
- 通用性强,可以处理四大组件
spark四大组件和核心功能:
- spark core
spakrcontext:一切的对象都是他产生的
存储体系:内存不足的时候才会考虑落地到磁盘
计算引擎:RDD模型、DAGscheduler、jobscheduler
部署模型:yarn,mesos等 - sparksql
允许人员使用sql对数据进行处理
比hive效率更高 - sparkstreaming组件
流式计算,高吞吐高容错
将数据离散化,分割成RDD处理
动态负载均衡 - sparkgraphx组件
社交网络 - sparkmllib组件
机器学习
spark速度更快的原因
- 传统计算框架不能很好地利用抽象利用分布式内存,从而缺少机器学习,交互式数据分析的能力。HAD