NLP中GLUE数据集下载

最新推荐文章于 2024-04-23 20:12:14 发布

Vinsmoke -Hou

最新推荐文章于 2024-04-23 20:12:14 发布

阅读量2.7k

点赞数 1

文章标签：自然语言处理

本文链接：https://blog.csdn.net/one_super_dreamer/article/details/105012979

版权

最近在学习bert，想下载一些数据集练练手，官网给出GLUE的数据集需要外网下载。翻阅多个博客后发现了一下下载路径。

其中一个路径是https://blog.csdn.net/Light2077/article/details/104561960这个博客，里面博主给出了百度云的连接。

还有一种方式就是下面的方式，可以下载对应任务的数据集。

内容来自https://www.cnblogs.com/Arborday/p/11711343.html

通常来说，NLP可以分为自然语言理解（NLU）和自然语言生成（NLG）。在NLU方面，我们拿时下最流行的GLUE(General Language Understanding Evaluation)排行榜举例，其上集合了九项NLU的任务，分别是

CoLA(The Corpus of Linguistic Acceptability):纽约大学发布的有关语法的数据集，该任务主要是对一个给定句子，判定其是否语法正确，因此CoLA属于单个句子的文本二分类任务；
SST(The Stanford Sentiment Treebank)，是斯坦福大学发布的一个情感分析数据集，主要针对电影评论来做情感分类，因此SST属于单个句子的文本分类任务（其中SST-2是二分类，SST-5是五分类，SST-5的情感极性区分的更细致）；
MRPC(Microsoft Research Paraphrase Corpus)，由微软发布，判断两个给定句子，是否具有相同的语义，属于句子对的文本二分类任务；
STS-B(Semantic Textual Similarity Benchmark)，主要是来自于历年SemEval中的一个任务（同时该数据集也包含在了SentEval），具体来说是用1到5的分数来表征两个句子的语义相似性，本质上是一个回归问题，但依然可以用分类的方法做，因此可以归类为句子对的文本五分类任务；
QQP(Quora Question Pairs)，是由Quora发布的两个句子是否语义一致的数据集，属于句子对的文本二分类任务；
MNLI(Multi-Genre Natural Language Inference)，同样由纽约大学发布，是一个文本蕴含的任务，在给定前提（Premise）下，需要判断假设（Hypothesis）是否成立，其中因为MNLI主打卖点是集合了许多不同领域风格的文本，因此又分为matched和mismatched两个版本的MNLI数据集，前者指训练集和测试集的数据来源一致，而后者指来源不一致。该任务属于句子对的文本三分类问题。
QNLI（Question Natural Language Inference)，其前身是SQuAD 1.0数据集，给定一个问句，需要判断给定文本中是否包含该问句的正确答案。属于句子对的文本二分类任务；
RTE(Recognizing Textual Entailment)，和MNLI类似，也是一个文本蕴含任务，不同的是MNLI是三分类，RTE只需要判断两个句子是否能够推断或对齐，属于句子对的文本二分类任务；
WNLI(Winograd Natural Language Inference)，也是一个文本蕴含任务，不过似乎GLUE上这个数据集还有些问题；

Vinsmoke -Hou

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
NLP中GLUE数据集下载

最近在学习bert，想下载一些数据集练练手，官网给出GLUE的数据集需要翻墙下载。翻阅多个博客后发现了一下下载路径。其中一个路径是https://blog.csdn.net/Light2077/article/details/104561960这个博客，里面博主给出了百度云的连接。还有一种方式就是下面的方式，可以下载对应任务的数据集。内容来自https://www.cnblogs.co...
复制链接

扫一扫