开源ETL Kettle 与 老牌国产自研Beeload 核心功能对比

ETL工具 打破“传统数据整合平台” ;打破新噱头“ 数据中台”(即数据黑匣子);数据孤岛终结者!

建设数据中心其间有一重要且烦碎的数据治理工作即(数据清洗、数据过滤、数据转换、数据标准化......)

建数仓/数据中心 必备工具-ETL工具:业界最出名的开源Kettle 与 国产老牌自研Beeload 核心功能对比参考如下:

 

                            北京灵蜂 Beeload & Pentaho Kettle 核心功能对比

序号技术参数BeeloadKettle
1整库迁移或批量表导出自动映射源表结构到目标库,支持批量映射。手工定义java class 完成表结构映射。
2时间戳同步要求源表包含时间戳字段,每次同步时,根据上次记录的断点读取未同步的数据,同步结束后记录断点。所有逻辑全部自动完成,无需手工扩展。要求目标表包含和源表一样的时间戳字段,每次同步时通过MAX()函数获取目标表已经同步数据的最大时间戳,然后在源表设置过滤条件读取上次同步后产生的记录,需要手工编辑SQL处理上述逻辑。
3触发器同步软件自动在源库创建触发器和临时表,数据同步后,自动删除临时表中的数据。用户自己手工创建触发器及临时表,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入临时表,抽取线程从临时表中抽取数据后需要手工删除临时表数据。
4全表比对

分为是否进行差异更新,差异更新时,通过计算每条记录的校验码,对源表和目标表记录进行比对,目标表记录不存在则插入,目标记录不相同则更新,目标表包含源表没有的记录则删除。

非差异更新时,读取检查源表记录是否存在于目标表,不存在则插入,存在则跟新目标表。

将每一条数据的每列内容进行比对,比对完了以后追加一个状态字段用来描述这条数据的状态,共有四种状态:identical( 未改变)、changed(改变)、new(新增)、deleted(删除),所对应的操作就是增、删、改,接下来就可以借助kettle的switch/case 组件按照操作类型执行不同的操作了。
5任务调度包含作业调度和工作流调度,统一管理任务的运行。软件自身定时调度功能不稳定,需要在系统计划中部署任务。
6定制开发内置集成脚本开发环境,所有图形配置均可转为脚本执行,脚本支持逐行断点调试。使用Java Script 脚本或定义 java class.

 

                              Beeload 工作流管理界面

 

 

                          Beeload 任务调度界面

 

 

                                  Beeload 脚本调试界面

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值