实时流处理学习(一)

MapReduce 适合离线批处理

实时流处理产生背景:

  • 时效性高
  • 数据量大

实时计算与流计算对比:

  • 实时计算:延迟性低
  • 流式计算:不断产生的数据流上计算

==综合==>实时流式计算

 

离线计算与实时计算的对比:

1) 数据来源

离线:HDFS 历史数据,数据量比较大

实时:消息队列(Kafka),实时新增/修改记录过来的某一笔数据

2) 处理过程

离线:MapReduce

实时:Spark(DSream / SS)

3) 处理速度

离线:慢

实时:快速

 

实时流计算框架:

  • Storm (真的实时)
  • Apache Spark Streaming(Spark的pai进行扩展,把数据流按照时间间隔拆成小的批处理)
  • IBM Stream
  • Yahoo! S4
  • LinkedIn Kafka
  • Flink(可以流式,可以批处理)

 

kafka的作用:Flume如果直接添加给Spark,在高峰期压力会很大,因此使用Kafka对高峰日志进行消除峰值

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值