数据传输:同构异IP数据源批量抽取实践

小科普:

什么是同构异IP数据源? 指的是库表结构一致、IP不同的多个 数据源;

同构异IP数据源的数据特征:数据源类型相同、IP不同、库表名称符合特定规律、表结构一致。

由于使用场景、业务形态、技术选型、开发架构的差异,在企业中往往存在多套不同的软硬件平台上的信息系统。这些不同来源的数据之间彼此独立、相互封闭,使得数据难以在业务系统间进行互联互通和信息共享,从而形成了信息孤岛。然而,随着信息化应用的不断深入,企业内部、企业与外部信息互通的需求日益强烈,亟需联通信息孤岛,实现数据的互通和共享。由此,数据传输产品应运而生,用于实现多种异构数据源之间的数据交换,帮助数据从业务系统同步进入数据仓库。

数据传输产品致力于提供丰富异构数据源之间数据交换的能力,采用分布式的架构,可实现各部门业务数据在应用层面的互联互通和信息共享,可以从容应对大数据量的数据传输需求。本文主要围绕同构异IP数据源批量抽取的业务场景,针对目前存在的业务痛点,结合实践案例介绍数据传输产品的产品解决方案。

1

业务场景

(1)随着业务的飞速发展,业务系统的数据量也在高速增长,需要系统具备灵活的扩展能力和高并发大数据量的处理能力。针对这个业务应用场景,业内部分的数据库系统如MySQL等提供了分布式分库分表的方案,通过减小单表的数据量来解决这个问题。分库分表的数据特征为:表结构一致,复杂场景下会分布存储在跨IP的多个库的多张表中。数据开发需要把分库分表的数据定期抽取到数仓Hive表。

(2)很多大型企业通常会在不同的地域设立分公司。各分公司的业务数据会按照公司的统一格式存储在各自的业务系统,各分公司的业务数据库的数据特征为:数据源类型相同、IP不同、库表名称符合特定规律、表结构一致。数据开发需要把分散在各个业务系统的数据定期抽取到总公司指定的数据库表用于后续经营分析。

2

业务痛点及产品解决方案

痛点1:创建任务操作繁琐

如果每个任务仅支持抽取单表,需要创建大量任务,任务维护极其困难。进一步来讲,即便已支持在同一任务中手工添加多个分库分表

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值