spark官方文档中文版_spark系列:Spark Streaming官方文档译文

概述

spark stream是对spark core api的扩展;对于spark core不太了解的请阅读:spark系列:spark core 数据交互技术点(数据模型)。所以本质上是通过批处理来模拟流处理。

spark stream的流数据源可以来自Kafka, Flume, Kinesis, 或 TCP sockets甚至是文件。

eb34e4a18c1457f901023e496366ed05.png

spark stream

对于流数据可以做很多复杂的处理(只有想不到,没有做不到的),如map操作、reduce操作、join操作,甚至是在线训练机器学习模型等等。

最终处理完之后的数据可以写入各种文件系统,如HDFS、数据库等等。

内部机制

spark stream模块接收流数据,并按照时间维度将其分割成一段段的小量的批数据,然后通过spark core引擎来处理。

2511ef0e9c5b835b041e26ac9fa60c9d.png

批处理模拟流处理

对外提供的接口本质上是对离散小批量数据(discretized stream or DStre

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值