NLP数据集:GLUE【CoLA(单句子分类)、SST-2(情感二分类)、MRPC、STS-B、QQP、MNLI、QNLI、RTE、WNLI】【知名模型都会在此基准上进行测试】

GLUE是一个用于自然语言理解的多任务基准,包含9个任务,如CoLA、SST-2、MRPC等。CoLA评估句子的语法合宜性,SST-2处理电影评论的情感分析。每个任务都有特定的评价标准,如Matthews相关系数或准确率。GLUE提供了一个平台来测试和比较NLU模型的性能。
摘要由CSDN通过智能技术生成

GLUE的论文为:GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding

GLUE的官网为:gluebenchmark.com/

本文的目的在于针对GLUE的九个任务分别做一个相对详细的说明,给出一些样例,有一个相对整体确切的感受,同时提供一个可以方便下载GLUE数据集的链接,供读者使用。

在这里插入图片描述

一、任务介绍

GLUE共有九个任务,分别是CoLA、SST-2、MRPC、STS-B、QQP、MNLI、QNLI、RTE、WNLI。如下图图2所示,可以分为三类,分别是单句任务,相似性和释义任务,

GLUE九大任务的描述和统计。所有任务都是单句或者句子对分类,除了STS-B是一个回归任务。MNLI有3个类别,所有其他分类任务都是2个类别。测试集中加粗的表示测试集中标签从未在公共论坛等场所展示过
在这里插入图片描述

1、CoLA

CoLA(The Corpus of Linguistic Acceptability,语言可接受性语料库),单句子分类任务,语料来自语言理论的书籍和期刊,每个句子被标注为是否合乎语法的单词序列。本任务是一个二分类任务,标签共两个,分别是0和1,其中0表示不合乎语法,1表示合乎语法。

样本个数:训练集8, 551个,开发集1, 043个,测试集1, 063个。

任务:可接受程度,合乎语法与不合乎语法二分类。

评价准则:Matthews correlation coefficient。

标签为1(合乎语法)的样例:

  • She is proud.
  • she is the mother.
  • John thinks Mary left.
  • Yes, she did.
  • Will John not go to school?
  • Mary noticed John’s excessive appreciation of himself.

标签为0(不合语法)的样例:

  • Mary sent.
  • Yes, she used.
  • Mary wonders for Bill to come.
  • They are intense of Bill.
  • Mary thinks whether Bill will come.
  • Mary noticed John’s excessive appreciation of herself.

注意到,这里面的句子看起来不是很长,有些错误是性别不符,有些是缺词、少词,有些是加s不加s的情况,各种语法错误。但我也注意到,有一些看起来错误并没有那么严重,甚至在某些情况还是可以说的通的。

2、SST-2

SST-2(The Stanford Sentiment Treebank,斯坦福情感树库),单句子分类任务,包含电影评论中的句子和它们情感的人类注释。这项任务是给定句子的情感,类别分为两类正面情感(positive,样本标签对应为1)和负面情感(negative,样本标签对应为0),并且只用句子级别的标签。也就是,本任务也是一个二分类任务,针对句子级别,分为正面和负面情感。

样本个数:训练集67, 350个,开发集873个,测试集1, 821个。

任务:情感分类,正面情感和负面情感二分类。

评价准则:accuracy。

标签为1(正面情感,positive)的样例:

  • two central performances
  • against shimmering cinematography that lends the setting the ethereal beauty of an asian landscape painting
  • the situation in a well-balanced fashion
  • a better movie
  • at achieving the modest , crowd-pleasing goals it sets for itself
  • a patient viewer

标签为0(负面情感,negative)的样例:

  • a transparently hypocritical work that feels as though it 's trying to set the women 's liberation movement back 20 years
  • so pat it makes your teeth hurt
  • blood work is laughable in the solemnity with which it tries to pump life into overworked elements from eastwood 's dirty harry period .
  • faced with the possibility that her life is meaningless , vapid and devoid of substance , in a movie that is definitely meaningless , vapid and devoid of substance
  • monotone
  • this new jangle of noise , mayhem and stupidity must be a serious contender for the title .

注意到,由于句子来源于电影评论,又有它们情感的人类注释,不同于CoLA的整体偏短,有些句子很长,有些句子很短,长短并不整齐划一。




参考资料:
GLUE基准数据集介绍及下载
https://gluebenchmark.com/tasks

网络模型采用基本的lstm和rnn模型,并再次基础上引入bert的预训练embedding层以及attention来进行优化。本次文本分类任务完整的流程包括:库导入、数据集处理与加载、网络模型的构建、损失函数和优化器、训练….zip深度学习是机器学习的一个子领域,它基于人工神经网络的研究,特别是利用多层次的神经网络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经网络(Neural Networks)**:深度学习的基础是人工神经网络,它是由多个层组成的网络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经网络(Feedforward Neural Networks)**:这是最常见的神经网络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经网络(Convolutional Neural Networks, CNNs)**:这种网络特别适合处理具有网格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经网络(Recurrent Neural Networks, RNNs)**:这种网络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆网络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗网络(Generative Adversarial Networks, GANs)**:由两个网络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经网络中用于添加非线性,使得网络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新网络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑战,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。
colasst-2和mrpc都是自然语言处理(NLP)中常用的数据集cola代表的是Language Understanding Evaluation(LUKE)的共同事业片中的句子相似度任务(STS)。在这个任务中,我们需要判断两个句子之间的相似性。该数据集句子配对组成,每个句子配对都有一个二进制标签,表示两个句子是否具有相似的语义。我们可以使用这个数据集来开发和评估句子相似度模型sst-2代表的是斯坦福树库(Stanford Sentiment Treebank)的二分类情感分类任务。在这个任务中,我们需要将一个句子分类为积极的(positive)还是消极的(negative)。这个数据集包含了大量的电影评论,每个评论都有一个情感标签。sst-2是一个常用的情感分类数据集,适用于训练和评估情感分类模型。 mrpc代表的是微软研究院发布的Microsoft Research Paraphrase Corpus。在这个任务中,我们需要判断两个句子是否是近义词(也称为“改写”或“释义”)。该数据集句子配对组成,每个配对都有一个二进制标签,表示两个句子是否具有相似的语义。mrpc是一个常用的句子相似度数据集,适用于训练和评估句子相似度模型。 这三个数据集NLP研究和应用中被广泛使用,可以帮助开发者和研究人员评估各种NLP模型的性能。通过在这些数据集进行训练和测试,我们可以获得各种任务上的准确性、召回率和F1分数等指标,进而改进和优化NLP模型
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值