初识实时数据流
一、离线计算与实时计算的对比
主要从以下四个方面
1)数据来源
离线:HDFS 历史数据 数据量较大
实时:消息队列(kafka)
2)处理过程
离线:MapReduce:map+reduce
实时:spark(DStream/ss)
3)处理速度
离线:慢
实时:快速
4)进程
离线:启动+销毁
实时:7*24小时
二、实时流处理框架对比
Apache storm:免费开源分布式
Apache Spark Streaming:按照时间间隔
IBM Streaming
Yahoo!S4
Linkedin Kafka
Flink
三、实时流处理架构与技术选型
四、实时流处理在企业中的应用
①电信行业
例如:实时计算剩余流量,发送短信进行提醒
②电商行业
例如:推荐系统的实时计算推荐