缘起:
近期生产系统有从其他系统获取数据进行功能判断的依据。基于个人坚持的系统之间尽量解耦的原则,果断建议了etl同步方式。因为之前对kettle+taskctl方式比较熟悉,也对商业的DataPipeline有过一定的接触和了解,因此这次果断选择了datax。一个是基于对datax的了解,一个是基于要丰富自己能力(*^▽^*)。
记录:
一、datax安装部署
https://github.com/alibaba/DataX/blob/master/userGuid.md看这个官方的文档就足够了。简单说就是开箱即用。非常方便。注意:python版本 建议2.6python在3.0版本进行了语句的调整,和2.*的版本差异比较大,导致2.*的python是无法在环境是3.0的机器上运行的。下附suse或者readhat的安装python 2.7的方法:wget https://www.python.org/ftp/python/2.7.14/Python-2.7.14.tgz # Downloadtar xvfz Python-2.7.14.tgz # unzipcd Python-2.7.14 # go into directory./configuremake # buildsu # or 'sudo su' if there is no root usermake altinstall
二、mysql到mysql的数据同步
这块分两部分介绍
datax的同步脚本,供学习者学习;
针对我的这个业务场景的补偿机制,供参考;
{
"job": {
"setting": {