Spark入门

spark历史:伯克利实验室研究项目,基于Hadoop的Mapreduce机制,引入内存管理机制,提高了迭代式计算和交互式中的效率。
spark组件:
spark core:spark基本功能,包括任务调度,内存管理,容错机制
内部定义了RDDs(弹性分布式数据集),提供多个APIs调用,为其他组件提供底层服务

spark sql:spark处理结构化数据的库,类似Hive SQL,MySql,主要为企业提供报表统计

spark streaming:实时数据流处理组件,类似Storm,提供API操作实时流数据,企业中用来从Kafka中接收数据做实时统计

Mlib:机器学习功能包,包括聚类,回归,模型评估和数据导入。同时支持集群平台上的横向扩展

Graphx:处理图的库,并进行图的并行计算

Cluster Manager是:spark自带的集群管理

Spark紧密集成的优点:
spark底层优化,基于spark底层的组件也得到相应的优化,紧密集成节省了组件的部署,测试时间



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值