分享企业级HIVE数仓规范文档----对管理数仓很有帮助

本文档旨在规范HIVE数仓的开发,包括DATABASE规划、HDFS目录规划、数据模型设计、任务调度组织和HIVE开发规范,以提高开发效率、程序可读性和数据安全性。适用范围覆盖大数据中心所有相关人员。通过对HIVE对象命名、表别名、代码设置和HSQL编写等进行标准化,确保数仓的高效稳定运行。
摘要由CSDN通过智能技术生成

数据仓库实施方案

文件编号:V0.1

生效日期:

编制人:

审核人: 

批准人: 

日期:2019.08.29

日期:

日期:

关键词

数据仓库 数据模型 

 

一、前言

1.1.编写目的 

为了保证大数据平台整体可控性,实现脉络清晰的管理,提高开发效率和程序的可读性,降低程序编写过程的出错率和重复劳动性,保持程序编写风格的一致性和连贯性,特定此规范。

1.2.编写背景

目前HIVE开发脚本比较混乱,没有统一的管理,针对现有的规范,结合具体现状,需要进行整体规划,确保大数据平台的顶层设计和整体规范。

1.3.适用范围 

本规范适用于苏宁大数据中心项目相关的开发人员以及运行管理人员,从事Hadoop/Hive开发的相关技术人必须按照此规范规定执行。

二、DATABASE规划

Hive的database规划主要体现大数据的架构,Hive中的database类似oracle中的user,db2中的schema的概念。

Hive作为大数据平台的数据仓库,对每个database规划如下:

  1. SSA存储格式采用TEXTFILE,以便于源系统数据快速入HDFS;采用内部表管理,主要是为了方便清理数据,表或者表分区数据文件随着表删除和分区删除同步删除,以免数据文件遗留造成空间严重浪费。
  2. 对外开发的表统一采用外部表管理,主要是保障数据文件安全,注意创建外部表时,需要指定文件存放目录。

名称

说明

权限

表要求

存储要求

ODS操作存储层

 

SSA

缓冲数据层

不开放

内部表

TEXTFILE

BI_SOR

细节数据区

开发

外部表

ORC

CDM公共层

 

BROCK_DWD

明细数据区

开放

外部表

ORC

BROCK_DWS

汇总数据

开放

外部表

ORC

BROCK_ DIM

维度数据

开放

外部表

ORC

ADS应用数据层

 

BROCK_ADS

应用数据区

开放

外部表

ORC

临时数据存放层

BI_TMP

SOR层开发用

不开放

内部表

ORC

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值