近期涉及一个BI项目初期阶段,构建数据仓库时遇到很多问题,主要问题,来源已下几个方面:html
1 不一样业务数据放在不一样类型的数据库(oracle和mysql的,excel等等)。python
2 源端数据库种类不一样,表结构建立语句与设计不一,致使很差同步问题。mysql
3 源端数据库只提供只读状态,没法对源端作起停和写操做。sql
4 源数据库中没有定义和更新时间字段没法作到增量同步。数据库
因而纠结与选什么类型的同步方案。网络
其实方案不少,好比oracle中sqldevelop中的sqlload,也尝试使用mysql的mysqldump,python,OGG,能够说只有实践才知道各有缺点。详细请看https://www.cnblogs.com/andy6/p/6959028.html。就知道 为何选择kettle当作选择方案?oracle
下面具体介绍如何使用kettle实现oracle到mysql增量同步,也是作一个总结。函数
1 选择服务(cpu,磁盘空间,内存尽可能好点,安装 Ubuntu,下载安装kettle软件,安装mysql。kettle安装和mysql安装很简单, 注意的是安装完kettle须要的lib打oracle和mysql的jar包。不然没法远程链接数据库。配置主机网卡,保证网络通畅。性能
2 打开kettle,新建事务,增长控件文本文件输入,复制记录到结果:文件输入打开其实就是你须要同步的文本文件,文本文件中的内容就是你须要同步的表名称。这里须要把表名称赋值给一个字段值。