最简单数仓建设,原理:将所有源数据抽取到同一个地方,建模,加工处理。
需求:将不同mysql库数据,抽取到同一个pg库,对抽取数据进行加工,生成报表。如:在B机器上抽取A机器上数据到C机器上。
使用工具:DataX
步骤:
- B机器上安装java,python,安装DataX
详细步骤参考:DataX使用 - 获取源数据相关参数
生成固定格式文件:schema|table|target_table|pk_column|columns|add_column
参考mysql参数获取:查询Mysql表名、主键、列名
参考postgresql参数获取:查看Postgresql表名、主键、列名 - 批量生成json文件
写一个简单的java文件,读取步骤2生成的文件,并按DataX要求生成对应格式的json文件。
详细参考:DataX批量生成json文件(简单java代码) - 通用执行sh脚本
参考: - 批量生成目标库建表语句
结合excel用起来比较方便,这事本该dba去做的,因为涉及表太多,dba不肯搞,只能自己搞个工具生成建表语句了。
参考详细步骤:Mysql表结构迁移到Postgresql - 调度系统部署
B机器上安装airflow,并装上对应的调度资料库 - 配置调度任务
参考网上 - 数据加工处理
参考:阿里OneData体系 - 生成报表目标表
- 接入报表系统