全文共2024字,预计学习时长6分钟
来源:Pexels
注意:谷歌的新数据集搜索工具已于2020年1月23日问世。
疫情防控阶段,大家的“寒假“越过越长,这么“长”时间的寒假能做些什么呢?
最近,谷歌发布了免费工具datasetsearch,它可以搜索2500万个公开可用的数据集。
搜索工具包括过滤器,可基于许可证(免费或付费)、格式(csv,图像等)和更新时间限制结果。
结果还包括对数据集内容的描述以及作者的引用。
谷歌的数据集聚合方法不同于其他数据集存储库(如亚马逊的开放数据注册表)。与其他自行管理和托管数据集的存储库不同,谷歌不会直接管理或提供2500万个数据集的访问权限。
取而代之的是,谷歌依靠数据集发布者,使用 schema.org的开放标准描述其数据集的元数据。然后,谷歌索引元数据,并使其在发布者之间可搜索。
发布者仍需自己托管数据集,因此符合schema.org标准的营利性发布者也将使用