SQuad2.0自然语言处理界最重量级的数据集

最新推荐文章于 2024-07-02 00:30:00 发布

BBlue-Sky

最新推荐文章于 2024-07-02 00:30:00 发布

阅读量5.7k

点赞数 1

分类专栏：人工智能文章标签：自然语言处理

本文链接：https://blog.csdn.net/qq_33813365/article/details/84986309

版权

人工智能专栏收录该内容

17 篇文章 0 订阅

订阅专栏

追赶ImageNet ，发力自动问答领域

这个数据集文章展现了着斯坦福做一个自然语言处理的ImageNet的野心，他很可能成为自然语言学术界未来至少一年内最流行的数据集。模型在这个数据集上做出好成绩，可以让自己的文章加分不少，被顶会录取的几率大大增加。如果读者想发顶会，且目前没有明确的研究方向，那么刷这个数据集是一条很好的道路。

于此同时，这个数据集也会为工业界做出贡献。之所以说会为工业界做出贡献，因为自然语言处理的研究风气和图像相比差一些，任务较多，且没有在paper里面附带代码的行业规则，导致很多工作无法重现，甚至有些人会连实验都不做，直接往图和表里面填数造一篇文章。而这个数据集学习了Imagenet，不给测试集，这样你就没法作弊，把代码交上来，我来给你跑，之后把测试集合上的水平评测出来，这样大家都公平，谁也别吹牛，谁也别作弊。此种环境有利于真正大贡献的工作得以浮现，例如Residual Network在去年席卷图像领域，在一个公平的环境下，以比其他对手好很多的效果呈现在了世人的面前。而SQuAD则是斯坦福在自然语言处理上，意图构建一个类似“ImageNet”的测试集合，分数实时在leaderboard上显示。

这就让这个数据集有如下优势：

1.测试出真正的好算法。尤其对于工业界，这个数据集是十分值得关注的，因为他可以告诉大家现在各个算法在“阅读理解”或者说“自动问答”这个任务上的排名。我们可以光看分数排名，就知道世界上哪个算法最好，不会再怀疑是作者做假了还是实现的不对。

2.提供一个阅读理解的大规模数据集。由于之前的阅读理解数据集规模太小或者十分简单，用一个普通的深度学习算法就可以刷到90%度，所以并不能很好的体现不同算法优劣。

纵使SQuAD不会像ImageNet有那么大的影响力，但绝对也会在接下来的几年内对自动问答领域产生深远的影响，并且是各大巨头在自动问答这个领域上的兵家必争之地（IBM已经开始了）。