数据中台-实施篇:数据接入相关规范

本文详细介绍了数据中台实施过程中数据接入的相关规范,包括文件内容、HDFS目录、HIVE规则等方面。文件内容规范强调了EXCEL文件的SHEET页使用,HDFS目录规范涉及文件命名、SFTP及HDFS路径规范。HIVE规范涵盖了数据库命名、数据表命名、字段命名、分区命名等多个方面,确保数据的一致性和准确性。
摘要由CSDN通过智能技术生成

xxx数据接入相关规范

1     文件内容规范

每个EXECL保留一个SHEET页。

       注:目前解析程序只解析第一个sheet页。如果与其他sheet页关联可能将导致数据不准确风险。

1.1   HDFS目录规范

1.1.1 文件命名规范

 

数据文件名称为自定义数据表文件名称,要有实在意义,取名简单,遵守企业命名规范,hdfs

文件命名和ftp缓存服务器英文件命名保持一致。

 

规范:  数据文件命名构成为:  8位日期数字_原表英文名称-批次号(3位数值).后缀名

 

注明:

  1. 8位日期数字: 前八位日期用来确认数据分区。
  2. 原表英文名称:描述实体业务源数据表英文简称。
  3. 批次号:用来描述数据文件存储上传的次数顺序,规定3位有效数值位(如:001)。
  4. 后缀名:主要由业务和数据团队视角协商来自定义即可,描述ftp缓存层源数类型(如xlsx、xlsb), hdfs目录文件类型统一为csv格式。
  5. 8位日期数字与原表英文名称使用下划线链接, 原表英文名称、批次号之间是有中划线链接。

例如

ftp文件名: 

8位日期数字_原表英文名称-批次号.后缀名

20190831-packing_list-001.xlsx

 

Hdfs文件名:

20190831-packing_list-001.csv

 

1.1.2 SFTP目录路径规范

存储介质

远程FTP本地服务器文件目录

状态

人力数据

/data/recv_t_dev/业务系统简称/时间/数据文件名

日全量数据

     

1.1.3 hdfs目录路径规范

源数接入类型: i:增量(Increment)、 t:全量(Total)、 p:区间(Period)

  1. 数据类型:全量数据标识字母为t,增量数据标识字母为i,区间数据标识字母为p
  2. 环境类型:测试数据标识名称为dev,正式数据标识名称为pro

 

命名规范:  /data/recv_{ 数据类型}_{环境类型}/业务系统简称/数据时间/表名称/数据文件

存储介质

目录(生产:pro 开发:dev)

状态

sftp本地目录

/data/recv_*_环境/业务系统简称/时间/文件名

临时文件存储

HDFS集群目录

/data/recv_t_pro/业务系统简称/时间/库表名/文件名

清洗后数据目录(全),生产

HDFS集群目录 /data/ftpdata_t_dev/业务系统简称/时间/库表名/文件名 源数据接入(全),生产

ODS仓库目录

/user/hive/warehouse/库名/表名

业务库表

 

业务系统简称(和hive业务库名称对应):环境 _业务系统英文简称(3位字母位)

接入类型

HDFS目录划分(生产:pro 开发:dev)

数据层级

数据周期

全量数据接入

/data/recv_t_dev/data_hrg/20190829/表名/数据文件

tmp层

人力按日接入

注:1. 上述依据生产环境HDFS目录和FTP服务器目录统一相同为例!

  1. 集团人力资源英文业务名(简称:hrg )

 

特殊说明:

实例规范解析:

数据接入SFTP文件实例(财务按月刷入整月数据)

生产环境数据源目录:/data/recv_*_pro/data_hrg/20190829/数据

数据接入HDFS实例(财务按月刷入整月数据)

生产环境数据源目录:/data/recv_*_pro/data_hrg/20190829/表名/数据

 

实例1sftp目录(财务按月刷入整月数据):

sftp目录: /data/recv_t_dev/data_hrg/201908/20190831-packing_list-001. xlsx

hdfs源数据目录: /data/ftpdata_t_dev/data_hrg/201908/packing_list /20190831-packing_list-001.csv

hdfs清洗后目录: /data/recv_t_dev/data_hrg/201908/packing_list /20190831-packing_list-001.csv

1.2   HIVE规范

1.2.1 数据库命名规范

 

在金博士平台(数据中台系统)建TMP层数据库和层数据表,都采用不同数据库数据。

数据库命名规则由两部分组成,命名规范:环境_库状态_业务系统英文简称</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值