根据《BERT破的11项纪录具体都是什么》,《BERT详解》整理
简写 | 全称 | 数据集描述 | |
MultiNLI | multi-genre natural language inference (多类型文本蕴含关系识别) | 文本间的推理关系,又称为文本蕴含关系。样本都是文本对,第一个文本M作为前提,如果能够从文本M推理出第二个文本N,即可说M蕴含N,M->N。两个文本关系一共有三种entailment(蕴含)、contradiction(矛盾)、neutral(中立) | 基于句子对的分类任务 |
QQP | quora question pairs (文本匹配) | 判断两个问题的语义是否等价的。 | |
QNLI | question natural language inference (自然语言问题推理) | 二分类任务。正样本为(question,sentence),包含正确的answer;负样本为(question,sentence),不包含正确的answer。 用于判断文本是否包含问题的答案,类似于我们做阅读理解定位问题所在的段落。 | |
STS-B | the semantic textual similarity benchmark (语义文本相似度数据集) | 样本为文本对,评判两个文本语义信息的相似度,分数为1-5。 | |
MRPC | microsoft research paraphrase corpus (微软研究释义语料库) | 样本为文本对,判断两个文本的信息是否是等价的 | |
RTE | recognizing textual entailment (文本蕴含关系识别) | 类似于MNLI,但是只是对蕴含关系的二分类判断,而且数据集更小。 | |
SWAG | the situations with adversarial generations dataset | 从四个句子中选择为可能为前句下文的那个 | |
SST-2 | the stanford sentiment treebank (斯坦福情感分类树) | 分类任务。电影评价的情感分析。 | 基于单个句子的分类任务 |
CoLA | the corpus of linguistic acceptability (语言可接受性语料库) | 分类任务,预测一个句子是否是acceptable。 | |
SQuAD | the standFord question answering dataset (斯坦福问答数据集) | question,从phrase中选取answer。 | 问答任务 |
NER | named entity recognition (命名实体识别) | 命名实体识别 |
参考: