《大数据之路:阿里巴巴大数据实践》笔记——数据同步篇

数据同步方式

方式定义优点缺点
直连同步通过定义好的规范接口 API 和基于动态链接库的方式直接连接业务库配置简单,实现容易,比较适合操作型业务系统的数据同步对源系统的性能影响较大
数据文件同步通过约定好的文件编码、大小、格式等,直接从源系统生成数据的文本文件,由专门的文件服务器,如 FTP 服务器传输到目标系统后,加载到目标数据库系统中。当数据源包含多个异构的数据库系统(如 MyS QL Oracle QL Server DB2 等)时,用这种方式比较简单、实用;互联网的日志类数据,通常是以文本文件形式存在的,也适合使用数据文件同步方式文件传输需校验,有时也需增加压缩加密等功能
数据库日志解析同步使用日志文件进行系统恢复实现了实时与准实时同步的能力,延迟以控制在毫秒级别,并且对业务系统的性能影响也比较小数据延迟,投人较大,数据漂移和遗漏

阿里数仓同步方式

批量数据同步

DataX 采用 Framework+Plugin 的开放式框架实现, Framework 处理缓冲、流程控制、并发、上下文加载等高速数据交换的大部分技术问题,并提供简单的接口与插件接入。

• Job :数据同步作业
• Splitter :作业切分模块,将 个大任务分解成多个可以并发行的小任务
• Sub-Job :数据同步作业切分后的小任务,或称之为 Task
• Read er :数据读人模块,负 运行切分后的小任务,将数据从源系统 载到 DataX
• Channel: eader Writer 通过 hannel 交换数据。
• Writer :数据 出模块,负责将数据从 DataX 导人目标数据系统。

实时数据同步

TimeTunnel (TT )系统就是这样的实时数据传输平台,具有高性能、实时性、顺序性、高可靠性、高可用性、可扩展性等特点。

数据同步中的问题和解决

分库分表

TDDL ( Taobao Distributed Data ayer )就是这样一个分布式数据库的访问引擎,通过建立中间状态的逻辑表来整合统一分库分表的访问

高效同步和批量同步

通过 OneClick 产品,真正实现了数据的一键化和批量化同步,一键完成 DDL DML 生成、数据的冒烟测试以及在生产环境中测试等。

增量与全量同步的合并

全外连接( full outer join) +数据全量覆盖重新加载( insert overwrite ),即如日调度,则将当天的增量数据和前一天的全量数据做全外连接,重新加载最新的全量数据。在大数据量规模下,全量更新的性能比 update 要高得多。此外,如果担心数据更新错误问题,可以采用分区方式,每天保持 个最新的全量版本,保留较短的时间周期(如3~7天)

同步性能的处理

,阿里巴巴数据团队实践出了一套基于负载均衡思想的新型数据同步方案。该方案的核心思想是通过目标数据库的元数据估算同步任务的总线程数,以及通过系统预先定义的期望同步速度估算首轮同步的线程数,同时通过数据同步任务的业务优先级决定同步线程的优先级,最终提升同步任务的执行效率和稳定性。

数据漂移的处理

【时间类型】
数据库表中用来标识数据记录更新时间 modified_time
数据库日志中用来标识数据记录更新时间 log_time
数据库表中用来记录具体业务过程发生时间 proc_time
标识数据记录被抽取到时间 extract_time
【漂移的原因】
(1)根据 extract_ti me 来获取数据。这种情况数据漂移的问题最明显。
(2)根据 modified_time 限制。在实际生产中这种情况最常见,但是
往往会发生不更新 modified time 而导致的数据遗漏,或者凌晨时间产生的数据记录漂移到后一天。
(3)根据 log_time 限制。由于网络或者系统压力问题, log time 会晚于proc_time。
(4)根据 proc_time 限制。仅仅根据 proc_time 限制,我们所获取ODS 表只是包含一个业务过程所产生的记 ,会遗漏很多其他过程的变化记录,这违背了 ODS 和业务系统保持 致的设计原则
【漂移的处理】
方法1:多获取后一天的数据,保障数据只会多不会少。这样会有误差,比如凌晨支付并退款,统计状态时出错。
方法2:通过多个时间戳字段限制时间来获取相对准确的数据。
(1)首先根据 log_time 分别冗余前一天最后 15 分钟的数据和后一天凌晨开始 15 分钟的数据,并用 modified_time 过滤非当天数据。
(2)然后根据 log_time 获取后一天 15 分钟的数据 针对此数据,按照主键根据 log_time 做升序排列去重。
(3)前两步的结果数据做全外连接,通过限制业务时间proc_time 来获取我们所需要的数据。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值