贴源数据表设计
贴源数据层中的数据表与 对应 的业务系统数据表原则上保持一直, 数据结构上几乎不做修改所以参考业务系统数据表结构来设计 贴源数据就可以了, 结构设计上没有太多的规范要求, 考虑到业务系统数据多样性, 贴源数据表设计要遵循一些规范
贴源数据层表 命名 采用前缀 加业务系统表名方式,可以区分来源
贴源 数据层表 字段名 和业务系统字段保持一直, 在ods 不做 字段命名 归一, 字段类型 也尽可能保持 一直, 如果数据中台没有和业务系统对应的数据类型 则用一个 可以兼容的 数据类型, 比如 业务系统的数据类型是float,数据中台的储存系统没有float, 则可以用double代替
对于一些数据量较大 的业务数据表, 如果 采用 增量同步的方式, 则要同时 建立 增量表 的全量表, 增量表 利用后缀 标识, 汇聚到增量表的数据通过 数据加工任务合并生成全量表数据
对于日志 文件 等半结构化 数据, 不仅要储存原始数据, 还需要储存结构化之后的数据, 原始 数据 可以 按行储存在文本类型的大字段,然后通过解析任务把数据解析到结构化数据表中
通过以上建设规范, 可保障企业所有业务数据按照一致的储存方式储存到数据中台
贴源数据表实现, 贴源数据层 一般 采用 数据同步工具 实现数据的同步 落地,
1确定业务系统源表和贴源数据层目标表
2配置数据字段映射关心, 目标表肯恩回增加擦埃及 日期 分区 原系统标识 等 必要信息, 业务相关内容不做转换
3如果是增量同步 或者有条件同步部分数据, 则配置是数据同步条件
4清理目标表 对应数据
启动同步任务 ,往贴源层 目标哦表 导入数据
6验证 任务 是