Hive+Spark离线数仓工业项目--ODS层及DWD层构建(1)

该博客主要介绍了如何自动化构建Hive的ODS层和DWD层,包括从Oracle数据源采集数据、使用Avro和ORC存储格式。内容涵盖数仓分层回顾、Hive与Avro建表语法、ODS层需求分析与环境创建等,旨在实现全量与增量表的自动化建表和数据加载。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目标:自动化的ODS层与DWD层构建
实现
  - 掌握Hive以及Spark中建表的语法规则
  - 实现项目开发环境的构建
  - 自己要实现所有代码注释
  - ODS层与DWD层整体运行测试成功

数仓分层回顾

目标:回顾一站制造项目分层设计

实施

 ODS层 :原始数据层

    - 来自于Oracle中数据的采集

    - 数据存储格式:AVRO

    - ODS区分全量和增量

    - 实现

      - 数据已经采集完成

      - step1:创建ODS层数据库:one_make_ods

      - step2:根据表在HDFS上的数据目录来创建分区表

      - step3:申明分区

  DWD层

    - 来自于ODS层数据
    - 数据存储格式:ORC
    - 不区分全量和增量的
    - 实现
      - step1:创建DWD层数据库:one_make_dwd
      - step2:创建DWD层的每一张表
      - step3:从ODS层抽取每一张表的数据写入DWD层对应的表中

Hive建表语法

目标:掌握Hive建表语法

实施

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值