论文阅读第一期的文章《Goods:Organizing Google’s Datasets》讲的是关于谷歌在海量元数据管理方面的实践。本篇总结主要从3个方面进行展开:1.什么是元数据;2.如何管理元数据;3.启发与总结
1.什么是元数据
元数据被称之为描述数据的数据,记录的是文件的特征,包括数据属性、拥有者、权限、数据块等信息。无论是mysql、oracle这样的关系型数据库,还是Hive、HBase以及图数据库,都需要管理组织元数据,用户才能顺利地获取并使用相关的数据及文件,足以看出元数据管理的重要性。
2.如何管理元数据
元数据的组织和管理十分重要,但随着企业的发展,不同的生产系统产生了成千上万甚至几十亿的数据集,如何有效地管理这海量的元数据便成了一个挑战。Google在Goods这篇文章介绍相关理论和实践。LinkedIn也开源了元数据管理系统WhereHows
- Goods:Google Dataset Search
Google构建了一个元数据目录来管理几十亿数据集的元数据,以供工程师们了解Google有哪些数据,哪些数据比较常用(数据排名,