基本数仓建设(含最详细步骤)

最简单数仓建设,原理:将所有源数据抽取到同一个地方,建模,加工处理。

需求:将不同mysql库数据,抽取到同一个pg库,对抽取数据进行加工,生成报表。如:在B机器上抽取A机器上数据到C机器上。

使用工具:DataX

步骤:

  1. B机器上安装java,python,安装DataX
    详细步骤参考:DataX使用
  2. 获取源数据相关参数
    生成固定格式文件:schema|table|target_table|pk_column|columns|add_column
    参考mysql参数获取:查询Mysql表名、主键、列名
    参考postgresql参数获取:查看Postgresql表名、主键、列名
  3. 批量生成json文件
    写一个简单的java文件,读取步骤2生成的文件,并按DataX要求生成对应格式的json文件。
    详细参考:DataX批量生成json文件(简单java代码)
  4. 通用执行sh脚本
    参考:
  5. 批量生成目标库建表语句
    结合excel用起来比较方便,这事本该dba去做的,因为涉及表太多,dba不肯搞,只能自己搞个工具生成建表语句了。
    参考详细步骤:Mysql表结构迁移到Postgresql
  6. 调度系统部署
    B机器上安装airflow,并装上对应的调度资料库
  7. 配置调度任务
    参考网上
  8. 数据加工处理
    参考:阿里OneData体系
  9. 生成报表目标表
  10. 接入报表系统

 

 
  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值