1 前言
欢迎访问南瓜慢说 www.pkslow.com获取更多精彩文章!
Spring Cloud Data Flow
是什么,虽然已经出现一段时间了,但想必很多人不知道,因为在项目中很少有人用。不仅找不到很多中文资料,英文资料也一样少的可怜。这让探索的路更加艰辛,也更加有趣吧。
Spring Cloud Data Flow
是基于微服务的,专门用于流式和批式数据处理的框架。
2 基本概念
2.1 数据处理模式
数据处理有两种模式,分别是Streaming流式处理
和Batch批次处理
。Streaming
是长时间一直存在的,你数据来了我就处理,没来我就等着,基于消息驱动。Batch
是处理时间较短的,启动一次处理一次,处理完就退出任务,需要去触发任务。
一般地,我们会基于Spring Cloud Stream
框架来开发Streaming
应用,而基于Spring Cloud Task
或Spring Batch
框架来开发Batch
应用。完成开发后,可以打包成两种形式:
- (1)
Springboot
式的jar
包,可以放在maven
仓库、文件目录或HTTP
服务上; - (2)
Docker
镜像。
对于Stream
,有三个概念是需要理解的:
- (1)
Source
:消息生产者,负责把消息发送到某个目标; - (2)
Sink
:消息消费者,负责从某个目标读取消息; - (3)
Processor
:联合Source
和Sink
,它从某个目标消费消息,然后发送到另一个目标。
2.2 特性
Spring Cloud Data Flow
有许多好的特性值得我们学去使用它:
基于云的架构,可部署在
Cloud Foundry
、Kubernetes
或OpenShift
等。有许多可选择的开箱即用