xxx数据接入相关规范
1 文件内容规范
每个EXECL保留一个SHEET页。
注:目前解析程序只解析第一个sheet页。如果与其他sheet页关联可能将导致数据不准确风险。
1.1 HDFS目录规范
1.1.1 文件命名规范
数据文件名称为自定义数据表文件名称,要有实在意义,取名简单,遵守企业命名规范,hdfs
文件命名和ftp缓存服务器英文件命名保持一致。
规范: 数据文件命名构成为: 8位日期数字_原表英文名称-批次号(3位数值).后缀名
注明:
- 8位日期数字: 前八位日期用来确认数据分区。
- 原表英文名称:描述实体业务源数据表英文简称。
- 批次号:用来描述数据文件存储上传的次数顺序,规定3位有效数值位(如:001)。
- 后缀名:主要由业务和数据团队视角协商来自定义即可,描述ftp缓存层源数类型(如xlsx、xlsb), hdfs目录文件类型统一为csv格式。
- 8位日期数字与原表英文名称使用下划线链接, 原表英文名称、批次号之间是有中划线链接。
例如
ftp文件名:
8位日期数字_原表英文名称-批次号.后缀名
20190831-packing_list-001.xlsx
Hdfs文件名:
20190831-packing_list-001.csv
1.1.2 SFTP目录路径规范
存储介质 |
远程FTP本地服务器文件目录 |
状态 |
人力数据 |
/data/recv_t_dev/业务系统简称/时间/数据文件名 |
日全量数据 |
1.1.3 hdfs目录路径规范
源数接入类型: i:增量(Increment)、 t:全量(Total)、 p:区间(Period)
- 数据类型:全量数据标识字母为t,增量数据标识字母为i,区间数据标识字母为p
- 环境类型:测试数据标识名称为dev,正式数据标识名称为pro
命名规范: /data/recv_{ 数据类型}_{环境类型}/业务系统简称/数据时间/表名称/数据文件
存储介质 |
目录(生产:pro 开发:dev) |
状态 |
sftp本地目录 |
/data/recv_*_环境/业务系统简称/时间/文件名 |
临时文件存储 |
HDFS集群目录 |
/data/recv_t_pro/业务系统简称/时间/库表名/文件名 |
清洗后数据目录(全),生产 |
HDFS集群目录 | /data/ftpdata_t_dev/业务系统简称/时间/库表名/文件名 | 源数据接入(全),生产 |
ODS仓库目录 |
/user/hive/warehouse/库名/表名 |
业务库表 |
业务系统简称(和hive业务库名称对应):环境 _业务系统英文简称(3位字母位)
接入类型 |
HDFS目录划分(生产:pro 开发:dev) |
数据层级 |
数据周期 |
全量数据接入 |
/data/recv_t_dev/data_hrg/20190829/表名/数据文件 |
tmp层 |
人力按日接入 |
注:1. 上述依据生产环境HDFS目录和FTP服务器目录统一相同为例!
- 集团人力资源英文业务名(简称:hrg )
特殊说明:
实例规范解析:
数据接入SFTP文件实例(财务按月刷入整月数据):
生产环境数据源目录:/data/recv_*_pro/data_hrg/20190829/数据
数据接入HDFS实例(财务按月刷入整月数据):
生产环境数据源目录:/data/recv_*_pro/data_hrg/20190829/表名/数据
实例1:sftp目录(财务按月刷入整月数据):
sftp目录: /data/recv_t_dev/data_hrg/201908/20190831-packing_list-001. xlsx
hdfs源数据目录: /data/ftpdata_t_dev/data_hrg/201908/packing_list /20190831-packing_list-001.csv
hdfs清洗后目录: /data/recv_t_dev/data_hrg/201908/packing_list /20190831-packing_list-001.csv
1.2 HIVE规范
1.2.1 数据库命名规范
在金博士平台(数据中台系统)建TMP层数据库和层数据表,都采用不同数据库数据。
数据库命名规则由两部分组成,命名规范:环境_库状态_业务系统英文简称</