产生背景:
- 时效性高;
- 数据量大。
时流处理概述:
- 实时计算;
- 流式计算;
- 实时流式计算;
离线计算与实时计算对比:
1.数据来源
离线:HDFS 历史数据 数据量比较大
实时:消息队列(Kafka),实时新增、修改记录过来的某一笔数据
2. 处理过程
离线:MapReduce: map + reduce
实时:Spark(DStream/SS)
3. 处理速度
离线:慢
实时:块
实时流处理框架:
1. Apache Storm(真正意义上的实时处理)
2. Apache Spark Streaming (微批处理)
3. IBM Steam
4. Yahoo!S4
5. LinkedIn Kafka
实时流处理架构以及技术选型
web、app --》webserver --》 flume --》kafka --》Spark/Storm --》 RDBMS/NoSQL -》 可视化展示