【论文阅读第一期】Goods:Organizing Google’s Datasets总结

本文总结了论文《Goods:Organizing Google’s Datasets》和LinkedIn的开源元数据管理系统WhereHows。谷歌通过Goods构建了一个元数据目录,管理大量数据集,提供搜索、监控等服务。而WhereHows则用于跟踪数据生成和消费,提供元数据抽取和分析。两者都强调无侵扰的元数据获取和有效的数据搜索。
摘要由CSDN通过智能技术生成

论文阅读第一期的文章《Goods:Organizing Google’s Datasets》讲的是关于谷歌在海量元数据管理方面的实践。本篇总结主要从3个方面进行展开:1.什么是元数据;2.如何管理元数据;3.启发与总结

1.什么是元数据

元数据被称之为描述数据的数据,记录的是文件的特征,包括数据属性、拥有者、权限、数据块等信息。无论是mysql、oracle这样的关系型数据库,还是Hive、HBase以及图数据库,都需要管理组织元数据,用户才能顺利地获取并使用相关的数据及文件,足以看出元数据管理的重要性。
元数据的作用

2.如何管理元数据

元数据的组织和管理十分重要,但随着企业的发展,不同的生产系统产生了成千上万甚至几十亿的数据集,如何有效地管理这海量的元数据便成了一个挑战。Google在Goods这篇文章介绍相关理论和实践。LinkedIn也开源了元数据管理系统WhereHows

  • Goods:Google Dataset Search

Google构建了一个元数据目录来管理几十亿数据集的元数据,以供工程师们了解Google有哪些数据,哪些数据比较常用(数据排名,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值