《大数据技术原理与应用》学习

http://study.163.com/course/courseMain.htm?courseId=1002887002

先看了11章Spark

 

逻辑回归,需要迭代多,所以尤其适用Spark,100多倍

 

企业的应用:

1. 批量数据处理(数分钟与数小时,ETL),比如MapReduce

2. 基于历史数据的交互查询,比如Impala,Hive还不是

3. 实时数据流处理,比如Storm。比如返利的实时数据,以前通过数据库备库方式来处理,扩展性差。

 

而Spark提供了一站式解决。

 

一句话概括RDD,分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。

 

是依据宽依赖、窄依赖,来划分stage。

 

 

 

Storm的优势:支持毫秒级别的流式计算。(只是秒级别的)。Storm专业成熟。

 

最流行的关于大数据最典型的三大框架:

Hadoop 批处理

Spark 实时批处理

Storm 流式计算

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值