Dataset Search 搜索工具:改善数据集的发现、重用和引用方式

谷歌推出的Dataset Search是一个搜索引擎,旨在统一检索网络上的数据集。它利用schema.org元数据对数据集进行索引,目前包含了4600多个域名的3100多万个数据集,主要集中在地球科学、社会科学和生物学等领域。尽管存在数据集的可发现性和引用问题,但谷歌通过提供DOI和开放许可信息等方式提高了数据集的重用性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文 / Google Research 研究员 Natasha Noy 和软件工程师 Omar Benjelloun

网络上的数据集成千上万,涵盖了从传感器数据、政府记录到科学实验结果和业务报告等各种内容。事实上,几乎任何您能想象到的东西都有数据集,比方说帝企鹅的饮食,或者远程工作者的居住地。两年多前,我们着手设计了一个搜索引擎,为这些数据集和成千上万的存储库提供一个单一的入口点。最终成果就是 Dataset Search,此工具最初于 2018 年以测试版亮相,完整版在 2020 年 1 月全面推出。除了推进数据访问,Dataset Search 还直接利用来自数据集网页中使用 schema.org 结构的元数据描述对数据集进行调节和索引。

  • Dataset Search
    https://datasetsearch.research.google.com/

  • 完整版
    https://blog.google/products/search/discovering-millions-datasets-web/

截至目前,整个 Dataset Search 语料库包含来自 4600 多个互联网域名的 3100 多万个数据集。下图显示了过去两年中语料库的增长(虽然我们仍不清楚目前网络上的数据集在 Dataset Search 所占的比例,但这一数字始终在稳步上升)。

由 Dataset Search 索引的数据集的数量增长

为了更好地理解通过 Dataset Search 获得的数据集的广度和实用性,我们发表了“Google Dataset Search by the Numbers”,这篇论文被 2020 年 International Semantic Web Conference 收录。我们在此文中简述了可用数据集,介绍了来自其分析的指标和洞见,并提出了发布未来科学数据集的最佳做法。为了其他研究人员能够使用元数据来构建分析和工具,我们还公开了数据的一个子集。

  • Google Dataset Search by the Numbers
    https://research.google/pubs/pub49385/

  • 数据的一个子集
    https://www.kaggle.com/googleai/dataset-search-metadata-for-datasets

一系列数据集主题

为了确定数据集所涵盖主题的分布,我们根据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值