漫谈大数据仓库与挖掘系统(三):ETL的开始——数据的传输和同步

本文介绍了大数据仓库中的ETL过程,包括数据的提取、转换和装载。讨论了结构化数据(如MySQL、SQLServer等)的定时传输和实时同步策略,以及日志数据的准实时同步。提到了阿里巴巴的开源工具DataX用于结构化数据同步,而TimeTunnel用于日志数据交换。
摘要由CSDN通过智能技术生成



本文其它章节:
漫谈大数据仓库与挖掘系统(一):大数据的价值
漫谈大数据仓库与挖掘系统(二):层次、维度与主题




在前面的章节中,我们提到,本文最终的目的,是带领大家构造设计一个“全民信息数据挖掘系统”。而在上一节中,我们得知,数据仓库的特性之一便是其的“集成性”:不同的数据来源、不同的形式的数据集中在一处,在数据仓库系统中进行分析。这便是一个数据仓库系统的ETL的第一个步骤。所谓的ETL,便是Extraction-Transformation-Loading, 数据的提取、转换和装载到数据仓库的过程。数据从前端的业务系统中,装载到数据仓库中。在这个过程中,我们从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。


说到数据源,当然指的便是业务系统中的各个数据来源,例如我们的各个网站或者C/S(客户端/服务器)系统中后台的各种数据库,如MySQL、SQLServer、Oracle、DB2等,如果再考虑到“全民信息挖掘系统”的特性,我国不少政府部门的业务数据库还在使用M$的FoxPro和Accessÿ
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值