(注:flink版本>=1.9.0,spark版本>=2.x.x)
使用场景
- 海量数据ETL
- 海量数据聚合
- 多源数据处理
特性
- 简单易用,灵活配置,无需开发
- 实时流式处理
- 高性能
- 海量数据处理能力
- 模块化和插件化,易于扩展
- 支持利用SQL做数据处理和聚合
工作流程
input/Source[数据源输入] -> Filter/Transform[数据处理] -> Output/Sink[结果输出]
v2.x 和 v1.x 区别

备注:Waterdrop v1.x 与 v2.x 还有一个很大的区别,就是配置文件中,input改名为source, filter改名为transform, output改名为sink。
# v1.x 的配置文件:
input {}
filter {}
output {}
# v2.x 的配置文件:
source {} # input -> source
transform {} # filter -> transform
sink {} # output -> sink
为何要研发 WaterDrop 2.x
在2017年的夏天,InterestingLab 团队为了大幅提升海量、分布式数据计算程序的开发效率和运行稳定性,开源了支持Spa

WaterDrop v2.x 是一款由InterestingLab研发的实时数据处理框架,支持Spark和Flink,提供模块化和插件化的数据处理流程,包括数据源输入(source)、数据处理(transform)和结果输出(sink),适用于海量数据ETL、聚合和多源数据处理场景。
最低0.47元/天 解锁文章
730

被折叠的 条评论
为什么被折叠?



