弃用ETL,为什么说ELT才更适合AI应用场景?

导读: 作为现代企业和组织机构的重要资源,信息是进行科学管理与决策分析的基础。ETL 则是把数据转换为信息、知识的关键步骤之一。在 AI 应用场景下,数据集成有哪些特点?随着 AI 应用场景越来越多,为什么我们需要从 ETL 转换到 ELT?又会遇到哪些问题和挑战?

本周三,陈肃博士与我们分享了《从 ETL 到 ELT——AI 时代数据集成的问题与解决方案》,AI 前线将分享内容整理成文,方便大家回顾参考。

大家好!很高兴今天有机会和大家分享一些数据集成方面的看法和应用经验。先自我介绍一下。我叫陈肃,博士毕业于中国科学院大学,数据挖掘研究方向。现在北京数见科技(DataPipeline)任 CTO。之前曾经在中国移动研究院任职算法工程师和用户行为实验室技术经理,之后作为合伙人加入过一家互联网教育公司,从事智能学习方面的研发工作。

在毕业后工作的这多年以来,我大部分时候在做大数据和机器学习相关的应用系统研发工作,数据的整合是其中一个非常重要的环节。加入 DataPipeline 后,公司研发的是一款企业级的数据集成产品,旨在帮助企业一站式解决数据集成和元数据管理问题。

ELT 和 ETL 是数据集成的两种基本方式。前者专注于大数据的实时抽取和可靠传输,后者则包含了更丰富的数据转换功能。 由于今天是和 AI 前线的朋友们一起探讨数据集成,我主要结合 AI 应用的场景谈谈:为什么 ELT 是更适合 AI 应用场景的数据集成方案、采用 Kafka 技术栈来构建 ELT 平台所具备的优势和问题以及我们所做的一些优化工作。希望能够对大家的工作和学习有所帮助。

今天我的分享主要内容如上图:

首先,我会介绍一下 AI 应用中数据集成的典型场景,ETL 和 ELT 两种数据集成模式的异同点,以及为什么 AI 应用下更适合采用 ELT 模式。然后,我会花一些篇幅介绍数据集成中需要重点考虑的基本问题,以及我们所采用的底层平台——Kafka Connect 在解决这些问题上的优势和局限。

接下来,我会介绍 DataPipeline 对于 Kafka Connect 一些优化。有的是从底层做的优化,例如线程池的优化。有的则是从产品特性上的优化,例如错误数据队列。

最后,我们谈一谈 Kafka Connect 和 Kafka Stream 的结合,以及我们用 Kafka Stream 做数据质量预警方面的一个应用 Case。

 

一、AI 应用场景下的数据集成

 

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,为企业提供全面的数据共享。AI 是典型的数据驱动应用,数据集成在其中起着关键的基础性作用。

以一个大家所熟悉的在线推荐服务为例,通常需要依赖三类数据:用户的属性 (年龄、性别、地域、注册时间等)、商品的属性(分类、价格、描述等)、用户产生的各类行为(登录、点击、搜索、加购物车、购买、评论、点赞、收藏、加好友、发私信等)事件数据。

随着微服务框架的流行,这三类数据通常会存在于不同的微服务中:“用户管理服务”储存着用户的属性、好友关系、登录等数据;“商品管理服务”存储的商品信息;“订单服务”存储着用户的订单数据;“支付服务”存储用户的支付数据;“评论服务”记录着用户的评论和点赞数据。为了实现一个推荐服务,我们首先需要让服务能够访问到这些数据。这种数据访问应该是非侵入式的,也就是说不能对原有系统的性能、稳定性、安全性造成额外的负担。因此,推荐服务不应当直接访问这些分散的数据源,而是应该通过某种方式将这些数据从各个业务子系统中提取出来,汇集到一个逻辑上集中的数据库 / 仓库,然后才能方便地使用机器学习框架(例如

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值