在前几年大数据发展的初期,各个公司都在风风火火地搞平台,搞数仓,接入各种数据,在那个阶段注重的是数据的存储和计算,慢慢地一年一年的数据积累下来,数据量大了之后人们开始关注质量的问题,这也是数据治理这个词这几年变得非常火的原因,平台那一套东西已经很成熟了,基本上即插即用,能满足大部分不太刁钻的需求了。所以,现在各个企业都会把保证平台的稳定,保证数据的高质量放在第一位,毕竟用于指导决策的数据是不容许出现大错误的,所以数据治理也就成了数仓建设非常重要的一个环节。
本篇面试内容划重点:元数据管理、数据质量、数据安全。
元数据管理
元数据即数据的数据,数据仓库的特点是数据种类多、数量大,相应的元数据也有很多,如果没有一个集中管理元数据的地方,在使用上会非常不便。元数据可以说是数据治理的基础,基于元数据我们还可以做很多的相关应用,比如血缘分析、数据资产地图、数据质量管理等等。
元数据分为业务元数据、技术元数据和操作元数据,三者之间关系紧密。业务元数据指导技术元数据,技术元数据以业务元数据为参考进行设计,操作元数据为两者的管理提供支撑。
业务元数据
业务元数据是定义和业务相关数据的信息,用于辅助定位、理解及访问业务信息。业务元数据的范围主要包括
- 指标名称、计算口径、业务术语解释、衍生指标