pa100k数据集_自己学习深度学习时，有哪些途径寻找数据集？

最新推荐文章于 2023-09-07 11:00:03 发布

weixin_39689700

最新推荐文章于 2023-09-07 11:00:03 发布

阅读量161

点赞数

文章标签： pa100k数据集

本文链接：https://blog.csdn.net/weixin_39689700/article/details/111846261

版权

微软推出了微软研究院开放数据项目，提供大量跨学科数据集，旨在简化数据集访问，促进研究协作和资源复用。项目涵盖计算机科学、社会科学等多个领域，包括MS MARCO、社交媒体对话语料库等数据集，支持直接复制到Azure Data Science虚拟机上。这个平台将推动学术界和产业界的数据共享与研究进步。

摘要由CSDN通过智能技术生成

很高兴为大家介绍我软最近对外发布的微软研究院开放数据项目(Microsoft Research Open Data)，这套新的云数据资料库囊括了微软多年以来在已发表的研究中所使用的数据管理和研究成果。

微软的目标是为研究人员与合作者提供一个简单便捷的平台，来共享数据集和相关研究技术与工具。微软研究院开放数据项目旨在简化对这些数据集的访问流程，促进使用云资源的研究人员之间的协作，实现研究资源的可复用性。

微软研究院开放数据项目中的数据集

随着全球数据总量的指数级增长，人们普遍认为在2025年数据总量就将超150ZB。人们已经认识到应该优先处理数据，而不是依赖缓慢增长的互联网带宽迁移数据。因此我们相信，开放数据集将为学术界和产业界带来巨大的应用价值。

麻省理工学院教授Sam Madden表示“微软开放数据项目将改变大数据时代的游戏规则，能够大大减少数据共享的障碍，借助云计算的力量促进研究资源的可复用性。”

开放了哪些数据集？

微软研究院开放数据项目中的数据集根据研究领域进行分类，涵盖计算机科学、社会科学、物理学、天文学、生物学、经济学等等多个学科领域，如下图所示。数据集中的分类

微软研究院开放数据项目尽可能达到了数据共享的最高标准，以确保数据集可发现性、可访问性、互操作性和可复用性，且整套数据资料库不包含任何个人身份信息。

目前该项目包含了数十个已开放的数据集，我们为大家介绍其中的几个精选数据集：

微软机器阅读理解(MS MARCO)

微软机器阅读理解(MS MARCO)是一个全新的用于阅读理解和问题解答的大型数据集。在MS MARCO中，所有问题都来自于真正匿名用户的搜索查询。用于推断回答的上下文语境则来自于必应搜索引擎抓取的真实Web文档。回答则由人工生成。

文件大小：469.03 MB

文件类型：json

许可协议：微软研究院数据许可协议

类别：社会科学、社交媒体等

详细信息：

微软研究院社交媒体对话语料库

该数据集集合了从Twitter日志中提取的代表4,232个三步会话片段的12,696个Tweet ID。数据集中的每一行表示一个单独的上下文-消息-响应三元组，众包注释者在李克特量表上为上下文响应质量的评分平均为4或更高。数据已被随机分为开发数据集和测试数据集，分别包含2118和2114个三元组。该数据集仅在自然语言处理社区供学术研究之用。为了访问底层推文和相关元数据，需要调用Twitter API。

如果在研究中使用该数据集，请在文中引用以下文章：

Alessandro Sordoni, Michel Galley, Michael Auli, Chris Brockett, Yangfeng Ji, Meg Mitchell, Jian-Yun Nie, Jianfeng Gao, and Bill Dolan, A Neural Network Approach to Context-Sensitive Generation of Conversational Responses, Conference of the North American Chapter of the Association for Computational Linguistics – Human Language Technologies (NAACL-HLT 2015), June 2015.

文件大小：245.46 KB

文件类型：txt

许可协议：微软研究院数据许可协议

类别：社会科学、社交媒体等

详细信息：

SigmaDolphin

SigmaDolphin是2013年初在微软亚洲研究院启动的一个项目，其主要目标是建立一个具有自然语言理解和推理能力的计算机智能系统，专注于自动解题的应用，即自动解决用自然语言编写的问题(特别是数学问题)。

文件大小：11.54 MB

文件类型：json、pdf、pkl、py、txt

许可协议：微软研究院数据许可协议

类别：数学、统计学、逻辑学等

详细信息：