近日, 观远数据联合创始人&首席架构师吴宝琪, 作为 Apache DolphinScheduler 的PPMC参加了 Apache DolphinScheduler 的首届用户大会, 并在大会上做了《从开源使用者到Apache PPMC之路》的分享, 以下是分享的主要内容.
Table of Contents
• 1. Part 1. 缘起
o 1.1. 阶段1, Airflow本身是非常强大的, 我们也做了大量的Operator扩展
o 1.2. 阶段2, Apache NiFi 和 StreamSets Data Collector (简称 SDC)
o 1.3. 阶段2.5, Kettle 和 Talend DI
o 1.4. 阶段3, 开始调研各种开源调度项目, 并最终选定 DolphinScheduler
• 2. Part 2. 开工
o 2.1. 在项目中做的贡献
o 2.2. 简单谈谈为什么贡献开源
o 2.3. 开源的收获
• 3. Part 3. 未来
o 3.1. 打算探索的一些功能
1 Part 1. 缘起
观远数据是一家BI + AI的数据科技公司. 比如: 对于BI(Business Intelligence, 商业智能)来说, 并不简单的是酷炫的可视化, 而是会涉及到大量的外部系统对接和数据融合, 这里都会牵扯到复杂的数据清洗和任务调度. 虽然我们的BI中也内置了轻量的数据处理模块, 但是, 对于更复杂的任务调度/补数据等需求, 以及AI产品中的一些数据清洗/特征工程/调度等, 我们也在寻找更适合的开源工具.
1.1 阶段1,