DataWorks
三思呐三思
这个作者很懒,什么都没留下…
展开
-
DataWorks数据集成任务切分键妙用
一、数据集成任务切分键探索 对于数据集成任务,这些任务的时间消耗一般都主要花费在数据同步上,当查询表数据量较大时,其SQL本身在数据库中查询就是很慢的,那么对于这种情况有说明好的优化方法呢? 数据集成任务上提供了一个切分键的设置,那么该切分键是否可以对源库SQL查询有一定的提升,进而提高数据同步任务的整体效率呢? 切分键:可以将源数据表中某一列作为切分键 建议使用主键或有索引的列作为切分键 1、如何探究任务究竟怎么入库查询拉取数据呢? 这里主要讲案例中使用到的MySQL数据库时可以通过什么方案探究任务如何原创 2020-06-26 15:34:29 · 2895 阅读 · 0 评论 -
DataX工具的使用
一、DataX框架 1、Datax3.0设计框架 Reader:Reader为数据采集模块,负责采集数据源的数据,将数据发送给Framework。 Writer: Writer为数据写入模块,负责不断向Framework取数据,并将数据写入到目的端。 Framework:Framework用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。 2、DataX3.0核心架构 核心模块介绍: 1)DataX完成单个数据同步的作业,我们称之为Job,D原创 2020-06-26 15:33:22 · 1150 阅读 · 0 评论