文本分类——GLUE数据集介绍

本文介绍了文本分类在自然语言处理(NLP)领域的广泛应用,通过分析GLUE数据集上的九项NLU任务,如CoLA、SST、MRPC等,展示了从语法正确性判断、情感分析到文本蕴含等各类文本分类任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

如果要用一句话形容文本分类任务在NLP中的应用之广,某种程度上,大概这句话最适合:

一切NLP皆分类。

通常来说,NLP可以分为自然语言理解(NLU)和自然语言生成(NLG)。在NLU方面,我们拿时下最流行的GLUE(General Language Understanding Evaluation)排行榜举例,其上集合了九项NLU的任务,分别是

  • CoLA(The Corpus of Linguistic Acceptability):纽约大学发布的有关语法的数据集,该任务主要是对一个给定句子,判定其是否语法正确,因此CoLA属于单个句子的文本二分类任务;
  • SST(The Stanford Sentiment Treebank),是斯坦福大学发布的一个情感分析数据集,主要针对电影评论来做情感分类,因此SST属于单个句子的文本分类任务(其中SST-2是二分类,SST-5是五分类,SST-5的情感极性区分的更细致);
  • MRPC(Microsoft Research Paraphrase Corpus),由微软发布,判断两个给定句子,是否具有相同的语义,属于句子对的文本二分类任务;
  • STS-B(Semantic Textual Similarity Benchmark),主要是来自于历年SemEval中的一个任务(同时该数据集也包含在了SentEval),具体来说是用1到5的分数来表征两个句子的语义相似性,本质上是一个回归问题,但依然可以用分类的方法做,因此可以归类为句子对的文本五分类任务;
  • QQP(Quora Question Pairs),是由Quora发布的两个句子是否语义一致的数据集,属于句子对的文本二分类任务;
  • MNLI(Multi-Genre Natural Language Inference),同样由纽约大学发布,是一个文本蕴含的任务,在给定前提(Premise)下,需要判断假设(Hypothesis)是否成立,其中因为MNLI主打卖点是集合了许多不同领域风格的文本,因此又分为matched和mismatched两个版本的MNLI数据集,前者指训练集和测试集的数据来源一致,而后者指来源不一致。该任务属于句子对的文本三分类问题。
  • QNLI(Question Natural Language Inference),其前身是SQuAD 1.0数据集,给定一个问句,需要判断给定文本中是否包含该问句的正确答案。属于句子对的文本二分类任务;
  • RTE(Recognizing Textual Entailment),和MNLI类似,也是一个文本蕴含任务,不同的是MNLI是三分类,RTE只需要判断两个句子是否能够推断或对齐,属于句子对的文本二分类任务;
  • WNLI(Winograd Natural Language Inference),也是一个文本蕴含任务,不过似乎GLUE上这个数据集还有些问题;

 

转载自:文本分类——GLUE数据集介绍

GLUE网站: https://gluebenchmark.com/leaderboard/

### 文本相似度数据集及其与BERT模型的适配 对于文本相似度任务,多个公开可用的数据集适用于评估和训练基于BERT的模型。这些数据集中包含了成对的句子以及它们之间的人工标注相似度评分。 #### 常见的文本相似度数据集 1. **Quora Question Pairs (QQP)** QQP是一个广泛使用的二分类数据集,其中每一对问题是来自Quora网站的实际问题。标签指示这两个问题是否具有相同的含义[^1]。该数据集非常适合用来测试不同架构下的重复问题检测能力。 2. **Microsoft Research Paraphrase Corpus (MRPC)** MRPC由微软研究院创建,包含从在线新闻源收集到的手动标记平行句对。此集合主要用于衡量系统识别同义表达的能力,在GLUE基准评测中有重要地位。 3. **Semantic Textual Similarity Benchmark (STS-Benchmark or STSb)** 这个数据集提供了连续值范围内的相似度得分(通常是从0到5),可以更细致地反映两句话之间的语义关系强度。它被设计来挑战机器理解人类语言细微差别的水平[^2]。 4. **SNLI: Stanford Natural Language Inference** 虽然主要针对自然语言推理任务,但SNLI也能够间接支持文本匹配研究,因为它涉及判断前提陈述相对于假设的关系——这本质上也是一种形式的相似性分析。 #### BERT模型的应用场景 当考虑使用BERT进行文本相似度计算时,上述提到的所有数据集都是合适的选择。特别是像Sentence-BERT这样的变体版本专门优化了BERT用于生成高质量固定长度向量表示的任务效率,从而使得大规模检索变得可行并提高了速度性能。 ```python from sentence_transformers import SentenceTransformer, util model = SentenceTransformer('all-MiniLM-L6-v2') # 加载预训练好的Sentence-BERT模型 sentences = ['This framework generates embeddings.', 'Sentences are embedded using deep networks.'] embeddings = model.encode(sentences) cosine_scores = util.cos_sim(embeddings[0], embeddings[1]) print(f"Cosine-Similarity between sentences is {cosine_scores.item():.4f}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值