数据仓库笔记(高质量建模)04——元数据管理

一、元数据定义

 

Information about data ,中介数据、中继数据,指用于描述数据的数据,用于描述数据数据属性的信息。用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。【信息来源百度百科】

二、元数据的分类

元数据按照功能分类,可分为3大类:

1、Business Metadata(业务数据)

2、Technical Metadata(技术数据)

3、Operational Metadata(操作数据)

1、Business Metadata(业务数据)

广义来讲,用于描述业务各种逻辑信息的数据都可称为业务数据,包括但不限于:

A、商业术语:

Business Glossary,包括名词与详细定义;

BG(Business Glossary)BingCard(仅为示例, 未必需要全部填充,具体内容还需根据对应业务或技术需求而定)

商业术语例子优先级备注
IDG0001
编码SME一般是名词的缩写
名词Subject Matter Expert
描述行业专家名词的解释
URL如何用最短的时间成为某行业专家? - 知乎关于该名词的外界相关链接
其他相关术语Subject与当前名词相关其他名词、可多个
注释特指企业内部的行业专家
标签Talent给当前名词添加的标签
父级术语Employee分类
数据管理员Raymond.shao
当前状态Approved状态一般有:undefined,Approved,Deleted

B、术语分类:

对于上述商业术语的逻辑归类,可构成Glossary Tree;

C、业务规则:

Business Rule,用于描述业务逻辑的相关信息;

D、业务流程:

Business Process,包括Activity ,Input ,Output , Supplier, Consumer等。

通常还要定义一系列相关元素的负责人,需要他们对Business Metedata 进行日常额维护,以确保元数据的准确、完备与及时。

2、Technical Metadata(技术数据)

广义来讲,所有在计算机系统中用于各种程序操作的各类数据的定义以及描述信息均可称为Technical Metadata。以BI系统为例,包括但不限于如下信息:

A、系统(system)

B 、接口(Interface)

C 、实体/表(Enity/Table)

D、注释/字段(Attribute/Column)

E、数据转换(Data Transforming Rule)

F、报表语义层(Universe)

系统 BingCard及元数据

系统例子备注
#S00001这个一般不用整理,系统会自己记录
系统名词HR
系统描述Human Resource,人力资源管理系统
操作系统AIX 7.1
数据库类型Oracle 11g
主机列表XXX.XXX .XXX.com
应用SAP ECC HR
负责人周二
业务专家张三
技术专家李四

接口的Bingcard 及元数据样例

接口例子备注
#INTI00001
接口名词工时系统日接口
接口描述

1、每晚9:00之前导出文件供下游系统适用

2、36个平面文件,以wsreredy.txt文件发出为完成标准

3、换行符为回车,字段间以“ | ”分割,日期格式为yyyy-mm-dd...

接口类型Inbound分Inboud与outbound
地址XXX.XXX.XXX.com/ftp/ws01.txt...ws36.txt与接口相对应,Inbound数据指数据来源上游,要导进来,outbound指数据提供给下游,要导出去
目标系统SAP 工时系统
是否分GEO分为AP、AM和EMEA三个GEO进行文件传输
接口周期Daily有实时、小时、每天、每周、每月等
接口时间

按GMT时间:

AP:8:00

AM:20:00

EMEA:16:00

负责人李四
通知方式http:XXX.XXX.XXX.com/fnterfaceready.html

表 Bingocard及元数据

例子备注
物理名词STGMDM.CUSTOMER名词及描述信息
逻辑名词Staging MDM Customer Table
描述从主系统抽取的customer 信息
接口IDINT、MDM、D001接口信息(Staging table only,DW、DM不用 )
接口MDM主数据日接口
加载周期每日
触发方式时间触发、每天凌晨0:30开始抽取数据
直接上游原系统Master Data System数据源信息
上游数据表SUST
最上游源系统CRM
最上游数据表CLIENT
数据规模1 milliom rows数据规模信息
数据增长规模日增,变化1000 rows
是否增量加载Yes数据加载相关信息
增量加载方式基于时间戳
上游更表更新方式只有insert 以及逻辑删除
主题CUSTOMER表类型:有Staging、数据仓库(DW)、数据集市(DM)
表类型Staging
主键SAP_CUSTOMER_NO Key信息
其他唯一标识N/A
表创建信息张三 于什么时间创建表表定义修改信息
表维护信息李四于什么时间增加abc三个字段

字段信息:

3、Operational Metadata(操作数据)

过程处理元数据,记录ETL过程中数据迁移情况。如迁移调度时间、迁移调度顺序,失败处理等内容。这些数据可以在迁移工具中自定义生成,但如果是手工编写ETL程序的话,Operational metadata的获取相对麻烦些。

三、DML、DDL、DCL的区别

数据库中讲SQL语句分三类:

1、DML

data manipulation languege/data modification language(数据维护语言),包括select、insert 、update 、 delect语句,后三个用来更改表中数据

2、DDL

data definition language(数据定义语言):指一些创建、修改、删除数据库对象的语言、相应的语句有:create、alter、drop

3、DCL

data control language(数据控制语言):用于控制用户对数据库的访问、常见三条命令:Grant、Revoke、setrole

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值