NLP中GLUE数据集下载

最近在学习bert,想下载一些数据集练练手,官网给出GLUE的数据集需要外网下载。翻阅多个博客后发现了一下下载路径。

其中一个路径是https://blog.csdn.net/Light2077/article/details/104561960这个博客,里面博主给出了百度云的连接。

还有一种方式就是下面的方式,可以下载对应任务的数据集。

内容来自https://www.cnblogs.com/Arborday/p/11711343.html

通常来说,NLP可以分为自然语言理解(NLU)和自然语言生成(NLG)。在NLU方面,我们拿时下最流行的GLUE(General Language Understanding Evaluation)排行榜举例,其上集合了九项NLU的任务,分别是

  • CoLA(The Corpus of Linguistic Acceptability):纽约大学发布的有关语法的数据集,该任务主要是对一个给定句子,判定其是否语法正确,因此CoLA属于单个句子的文本二分类任务;
  • SST(The Stanford Sentiment Treebank),是斯坦福大学发布的一个情感分析数据集,主要针对电影评论来做情感分类,因此SST属于单个句子的文本分类任务(其中SST-2是二分类,SST-5是五分类,SST-5的情感极性区分的更细致);
  • MRPC(Microsoft Research Paraphrase Corpus),由微软发布,判断两个给定句子,是否具有相同的语义,属于句子对的文本二分类任务;
  • STS-B(Semantic Textual Similarity Benchmark),主要是来自于历年SemEval中的一个任务(同时该数据集也包含在了SentEval),具体来说是用1到5的分数来表征两个句子的语义相似性,本质上是一个回归问题,但依然可以用分类的方法做,因此可以归类为句子对的文本五分类任务;
  • QQP(Quora Question Pairs),是由Quora发布的两个句子是否语义一致的数据集,属于句子对的文本二分类任务;
  • MNLI(Multi-Genre Natural Language Inference),同样由纽约大学发布,是一个文本蕴含的任务,在给定前提(Premise)下,需要判断假设(Hypothesis)是否成立,其中因为MNLI主打卖点是集合了许多不同领域风格的文本,因此又分为matched和mismatched两个版本的MNLI数据集,前者指训练集和测试集的数据来源一致,而后者指来源不一致。该任务属于句子对的文本三分类问题。
  • QNLI(Question Natural Language Inference),其前身是SQuAD 1.0数据集,给定一个问句,需要判断给定文本中是否包含该问句的正确答案。属于句子对的文本二分类任务;
  • RTE(Recognizing Textual Entailment),和MNLI类似,也是一个文本蕴含任务,不同的是MNLI是三分类,RTE只需要判断两个句子是否能够推断或对齐,属于句子对的文本二分类任务;
  • WNLI(Winograd Natural Language Inference),也是一个文本蕴含任务,不过似乎GLUE上这个数据集还有些问题;
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: GLUE(General Language Understanding Evaluation)任务数据集是一个被广泛应用于自然语言处理NLP)任务评估的标准数据集。它由来自9个不同任务的多个数据集组成,包括情感分类、自然语言推理、命名实体识别等任务。GLUE任务数据集的格式一般如下: 1. 训练集(Training set):用于训练模型的数据集。通常包含大量的语言样本,包括输入句子及其对应的标签或目标。 2. 验证集(Validation set):用于在训练过程评估模型性能的数据集。通常由从训练集划分出的一部分样本组成,不参与训练过程,用于调整模型的超参数或进行早期停止等。 3. 测试集(Test set):用于最终评估模型性能的数据集。通常由不参与模型训练和验证的样本组成。在完成模型训练和调参后,使用测试集对模型进行评估,以了解模型的泛化能力和性能。 对于每个任务,GLUE数据集一般包括输入句子或文本数据,以及对应的标签或目标。例如,对于情感分类任务,输入句子是一个句子或文本段落,标签是该文本的情感类别,如正面、负面或性。 在进行实验或研究时,我们可以使用GLUE数据集进行模型训练、验证和测试,以评估模型在各种NLP任务上的效果。通过对不同任务之间的性能进行比较,可以帮助我们了解和改进模型在不同语义理解任务上的表现,并推动NLP研究和应用的发展。 ### 回答2: GLUE是指General Language Understanding Evaluation,在自然语言处理领域广泛使用的一个基准任务。GLUE任务数据集格式指的是参与GLUE任务的数据集的数据格式要求。 GLUE任务数据集的格式要求如下: 1. 数据集应具有统一的标注格式:数据集的语料需要按照一致的格式进行标注,以保证不同任务之间的可比性。 2. 输入格式要求:对于多项选择问题的任务,输入数据集应以问题和选项的形式提供。对于分类任务,输入数据集应以文本对或者单个句子的形式提供。 3. 标签格式要求:数据集每个样本都应标注有相应的标签,用于指示样本所属的类别或是正确的答案。 4. 样本分割要求:数据集应以训练集、开发集和测试集的形式划分,并按照一定比例划分样本。常见的划分比例是70%的训练集、10%的开发集和20%的测试集。 5. 数据集质量要求:数据集应具有高质量的标注和丰富的样本。标注应准确无误,样本应能够涵盖各种语言结构和语义。 6. 数据集大小要求:数据集的规模应足够大,以确保模型能够充分学习和泛化。通常来说,数据集的大小应在几千到几百万条之间。 总之,GLUE任务数据集格式要求数据集的标注、格式、分割和质量都要符合一定的标准,以保证不同任务之间的可比性和模型的准确性和泛化性。 ### 回答3: GLUE(General Language Understanding Evaluation)任务数据集是一个广泛使用的自然语言处理数据集,旨在评估和比较不同模型在各种语言理解任务上的性能。它包含了9个不同的任务,包括自然语言推断、句子对匹配、情感分类等。 GLUE任务数据集的格式可以分为输入和输出两个部分。输入部分通常由两个文本序列组成,例如问题和答案、句子1和句子2等。而输出部分通常是一个标签,表示对应的任务类别。不同的任务可能有不同的标签集,例如True/False表示推断任务的正确与错误,Positive/Negative表示情感分类任务的积极与消极等。 在处理GLUE任务数据集时,我们通常需要使用机器学习模型来学习输入文本序列之间的关系,并进行相应的分类、匹配或预测。模型可以利用双向Transformer架构等深度学习方法来提取输入文本的语义信息,并通过训练来优化模型参数。 为了评估模型在GLUE任务数据集上的性能,我们可以使用各种评估指标,例如准确率、精确率、召回率、F1分数等。这些指标可以帮助我们比较不同模型的表现,并选择最优的模型进行进一步应用和研究。 总而言之,GLUE任务数据集提供了一个标准的、多样化的自然语言理解评估平台,帮助研究人员和开发者进行模型的训练和性能比较。通过合理利用这些数据集和方法,我们可以不断推动自然语言处理技术的发展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值