集成oss_开源数据集成和ETL的现状,Singer,Airbyte等

本文分析了开源数据集成领域的现状,重点探讨了Singer、Airbyte、PipelineWise和Meltano等项目。随着数据托管方式的变化,开源数据集成项目日益重要。Singer虽然广泛使用,但面临连接器过时和缺乏标准化的问题。而Airbyte致力于数据集成的商品化,提供开箱即用的连接器和强大的平台。PipelineWise则专注于源到Analytics-Data-Store的数据复制。Meltano建立在Singer之上,提供CLI优先的方法和DBT集成。此外,文章还提到了Apache Airflow和DBT等相关开源项目。
摘要由CSDN通过智能技术生成
cbb2294c1936fc8f3bb043606e7ace87.png

> Image from Simon Migaj on Pexels

开源数据集成并不新鲜。它始于16年前的Talend。但此后,整个行业发生了变化。Snowflake,Bigquery和Redshift之类的文件已经改变了数据的托管,管理和访问方式,同时使数据变得更容易且更便宜。但是,数据集成行业也在发展。

一方面,出现了新的开源项目,例如2017年的Singer.io。这使更多的数据集成连接器可以供更多团队使用,尽管它仍然需要大量的手工工作。

另一方面,更多的团队(分析师,科学家,商业智能团队)可以访问数据集成。 的确,像Fivetran这样的公司受益于Snowflake的崛起,它使非工程团队可以自行设置和管理其数据集成连接器,从而可以自主使用和处理数据。

但是即使取得了这一进展,大多数团队仍在内部构建自己的连接器。建造与购买的关系在很大程度上取决于建造。因此,我们认为现在应该对围绕数据集成的开源技术进行全新的了解。

但是,本文的想法来自上周关于DBT的Slack的激烈辩论。讨论围绕两件事:

· Fivetran的开源替代品的状态,以及

· 在解决数据集成问题时,开源(OSS)方法是否比商业软件方法更相关。

甚至Fivetran的首席执行官都参与了辩论。

47bbcd96e52e76650775b6e28ecdaac7.png

> Image captured by author

我们已经在上一篇文章中综合了第二点。在本文中,我们要分析第一点:开源数据集成技术的前景。

TL; DR

这是总结我们分析的表格。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值