初识spark

#何为spark
大规模数据处理和统一分析引擎
快速通用集群计算平台
快速通用的内存并行计算框架
用于开发大型,低延迟的数据分析应用程序
扩展了mapreduce计算模型
支持交互式查询和流处理
主要特点是内存计算,及时依靠磁盘进行复杂运算。
#为什么要学习spark
基于mapreduce的引擎往往都将运算中间结果存储在磁盘,以达到存储和容错的效果,磁盘读取的速度慢,spark正是弥补这些不足

#四大特性
高效性:先进的调度程序(有向无环图),查询优化程序,物理执行引擎实现高效性
易用性:支持java,python,scala等语言和80多种高级算法
通用性:提供统一平台来解决遇到的问题,批处理,交互式查询,流处理,流处理,机器学习,图形计算可以在同一个应用中无缝使用
兼容性:可以使用Hadoop的Yarn作为资源管理和调度器,也可以使用内置的资源管理和调度框架。

#spark组成
spark组成(BDAS)伯克利数据分析栈,主要组件
SparkCore
SparkSQL
SparkStreaming
MLlib
GraphX…

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值