大家好,我是爱踢球的阳仔。
近期在和同事聊数据的时候,发现很多人对于元数据和主数据的相关概念和作用不是很清晰。
在这里我就结合自身工作经历分享一下对元数据和主数据的理解。
一、什么是元数据?
元数据(Metadata / MADA),为描述数据的数据(data about data)。
定义比较难理解,举个常见的例子:
小红是单位有名的电影粉,作为小红的追求者张三,不懈努力约到小红一起去看新出的电影。为了能够和小红取得深入沟通,张三提前预习了电影故事情节及演员情况。
这里敲黑板:
1. 看电影就看电影,别剧透,剧透没有好下场;
2. 如果把电影看作数据,电影的介绍信息(导演、编剧、主演、上映时间~~~)都是这个数据的元数据。
总之只要能够用来描述某个数据的,都可以认为是元数据。
一般较大的公司都会有专门的元数据管理平台,用来记录数仓中模型的定义、血缘关系、历史版本、 归属者等。有兴趣的同学可以去看看自己公司的元数据包括哪些内容。
二、什么是主数据
主数据(MD Master Data)指系统间共享数据(例如,客户、供应商、账户和组织部门相关数据)。
主数据是关键业务实体的最权威、最准确、价值最大的数据,用于建立交易闭环。
常见的主数据类型:
拿客户主数据来举个例子:
每一个客户在客户主数据里面都有一个唯一标识,这个唯一标识基本不会发生改变。
公司各个业务、系统涉及到客户的数据都采用这个唯一标识,数据分析师通过客户标识在各个系统和业务提取数据进行分析。主数据具有4个主要特征:唯一性、有效性、稳定性、共享性。
运营和维护是主数据建设的关键,确定清洗规则,保证各个业务方、平台数据一致,对主数据扩容支持业务扩展。
运营和维护是主数据建设的关键,确定清洗规则,保证各个业务方、平台数据一致,对主数据扩容支持业务扩展。
以上就是元数据和主数据的介绍。总结一下:
元数据是描述数据的数据,包括存储位置、历史数据、资源查找、文件记录等。
主数据是指系统间共享数据,具有唯一性、有效性、稳定性、共享性。
参考资料:
DAMA数据管理知识体系指南 (清华大学出版社)
基于全生命周期的主数据管理:MDM详解与实践(清华大学出版社)
我是阳仔,欢迎微信搜索【数据三剑客】,关注即可获得一线大厂内推机会和我私藏的技术干货。