Spark Streaming入门知识
一、概述
功能:可以实现高吞吐量的,具备容错机制的实时流数据处理
Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据,进行处理后,处理结构保存在HDFS、DataBase等各种地方。
特点:
①低延时
②能从错误中高效的回复
③能够运行在成千上百的节点上
④能够将批处理、机器学习、图计算等子框架和spark streaming综合起来使用
过程:
Spark Streaming将接收到的实时流数据,按照一定时间间隔,对数据进行拆分,交给Spark Engine引擎,最终得到一批批的结果。
PS: one stack to rule them 一栈式解决
二、应用场景
eg:电商推荐系统等等
三、集成Spark生态系统的使用