一、元数据定义
Information about data ,中介数据、中继数据,指用于描述数据的数据,用于描述数据数据属性的信息。用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。【信息来源百度百科】
二、元数据的分类
元数据按照功能分类,可分为3大类:
1、Business Metadata(业务数据)
2、Technical Metadata(技术数据)
3、Operational Metadata(操作数据)
1、Business Metadata(业务数据)
广义来讲,用于描述业务各种逻辑信息的数据都可称为业务数据,包括但不限于:
A、商业术语:
Business Glossary,包括名词与详细定义;
BG(Business Glossary)BingCard(仅为示例, 未必需要全部填充,具体内容还需根据对应业务或技术需求而定)
商业术语 | 例子 | 优先级 | 备注 |
ID | G0001 | 高 | |
编码 | SME | 高 | 一般是名词的缩写 |
名词 | Subject Matter Expert | 高 | |
描述 | 行业专家 | 中 | 名词的解释 |
URL | 如何用最短的时间成为某行业专家? - 知乎 | 低 | 关于该名词的外界相关链接 |
其他相关术语 | Subject | 中 | 与当前名词相关其他名词、可多个 |
注释 | 特指企业内部的行业专家 | 低 | |
标签 | Talent | 低 | 给当前名词添加的标签 |
父级术语 | Employee | 高 | 分类 |
数据管理员 | Raymond.shao | 中 | |
当前状态 | Approved | 高 | 状态一般有:undefined,Approved,Deleted |
B、术语分类:
对于上述商业术语的逻辑归类,可构成Glossary Tree;
C、业务规则:
Business Rule,用于描述业务逻辑的相关信息;
D、业务流程:
Business Process,包括Activity ,Input ,Output , Supplier, Consumer等。
通常还要定义一系列相关元素的负责人,需要他们对Business Metedata 进行日常额维护,以确保元数据的准确、完备与及时。
2、Technical Metadata(技术数据)
广义来讲,所有在计算机系统中用于各种程序操作的各类数据的定义以及描述信息均可称为Technical Metadata。以BI系统为例,包括但不限于如下信息:
A、系统(system)
B 、接口(Interface)
C 、实体/表(Enity/Table)
D、注释/字段(Attribute/Column)
E、数据转换(Data Transforming Rule)
F、报表语义层(Universe)
系统 BingCard及元数据
系统 | 例子 | 备注 |
# | S00001 | 这个一般不用整理,系统会自己记录 |
系统名词 | HR | |
系统描述 | Human Resource,人力资源管理系统 | |
操作系统 | AIX 7.1 | |
数据库类型 | Oracle 11g | |
主机列表 | XXX.XXX .XXX.com | |
应用 | SAP ECC HR | |
负责人 | 周二 | |
业务专家 | 张三 | |
技术专家 | 李四 |
接口的Bingcard 及元数据样例
接口 | 例子 | 备注 |
# | INTI00001 | |
接口名词 | 工时系统日接口 | |
接口描述 | 1、每晚9:00之前导出文件供下游系统适用 2、36个平面文件,以wsreredy.txt文件发出为完成标准 3、换行符为回车,字段间以“ | ”分割,日期格式为yyyy-mm-dd... | |
接口类型 | Inbound | 分Inboud与outbound |
地址 | XXX.XXX.XXX.com/ftp/ws01.txt...ws36.txt | 与接口相对应,Inbound数据指数据来源上游,要导进来,outbound指数据提供给下游,要导出去 |
目标系统 | SAP 工时系统 | |
是否分GEO | 是 | 分为AP、AM和EMEA三个GEO进行文件传输 |
接口周期 | Daily | 有实时、小时、每天、每周、每月等 |
接口时间 | 按GMT时间: AP:8:00 AM:20:00 EMEA:16:00 | |
负责人 | 李四 | |
通知方式 | http:XXX.XXX.XXX.com/fnterfaceready.html |
表 Bingocard及元数据
表 | 例子 | 备注 |
物理名词 | STGMDM.CUSTOMER | 名词及描述信息 |
逻辑名词 | Staging MDM Customer Table | |
描述 | 从主系统抽取的customer 信息 | |
接口ID | INT、MDM、D001 | 接口信息(Staging table only,DW、DM不用 ) |
接口 | MDM主数据日接口 | |
加载周期 | 每日 | |
触发方式 | 时间触发、每天凌晨0:30开始抽取数据 | |
直接上游原系统 | Master Data System | 数据源信息 |
上游数据表 | SUST | |
最上游源系统 | CRM | |
最上游数据表 | CLIENT | |
数据规模 | 1 milliom rows | 数据规模信息 |
数据增长规模 | 日增,变化1000 rows | |
是否增量加载 | Yes | 数据加载相关信息 |
增量加载方式 | 基于时间戳 | |
上游更表更新方式 | 只有insert 以及逻辑删除 | |
主题 | CUSTOMER | 表类型:有Staging、数据仓库(DW)、数据集市(DM) |
表类型 | Staging | |
主键 | SAP_CUSTOMER_NO | Key信息 |
其他唯一标识 | N/A | |
表创建信息 | 张三 于什么时间创建表 | 表定义修改信息 |
表维护信息 | 李四于什么时间增加abc三个字段 |
字段信息:
3、Operational Metadata(操作数据)
过程处理元数据,记录ETL过程中数据迁移情况。如迁移调度时间、迁移调度顺序,失败处理等内容。这些数据可以在迁移工具中自定义生成,但如果是手工编写ETL程序的话,Operational metadata的获取相对麻烦些。
三、DML、DDL、DCL的区别
数据库中讲SQL语句分三类:
1、DML
data manipulation languege/data modification language(数据维护语言),包括select、insert 、update 、 delect语句,后三个用来更改表中数据
2、DDL
data definition language(数据定义语言):指一些创建、修改、删除数据库对象的语言、相应的语句有:create、alter、drop
3、DCL
data control language(数据控制语言):用于控制用户对数据库的访问、常见三条命令:Grant、Revoke、setrole