BERT之'测试数据集描述'

根据《BERT破的11项纪录具体都是什么》,《BERT详解》整理

 

简写全称数据集描述 
MultiNLI

multi-genre natural language inference

(多类型文本蕴含关系识别)

文本间的推理关系,又称为文本蕴含关系。样本都是文本对,第一个文本M作为前提,如果能够从文本M推理出第二个文本N,即可说M蕴含N,M->N。两个文本关系一共有三种entailment(蕴含)、contradiction(矛盾)、neutral(中立)基于句子对的分类任务
  QQP

quora question pairs

(文本匹配)

 判断两个问题的语义是否等价的。
 QNLI

question natural language inference

(自然语言问题推理)

  二分类任务。正样本为(question,sentence),包含正确的answer;负样本为(question,sentence),不包含正确的answer。

用于判断文本是否包含问题的答案,类似于我们做阅读理解定位问题所在的段落。

 STS-B

the semantic textual similarity benchmark

(语义文本相似度数据集)

 样本为文本对,评判两个文本语义信息的相似度,分数为1-5。
 MRPC

microsoft research paraphrase corpus

(微软研究释义语料库)

 样本为文本对,判断两个文本的信息是否是等价的 
  RTE

recognizing textual entailment

(文本蕴含关系识别)

  类似于MNLI,但是只是对蕴含关系的二分类判断,而且数据集更小。
SWAGthe situations with adversarial generations dataset从四个句子中选择为可能为前句下文的那个
 SST-2

the stanford sentiment treebank

(斯坦福情感分类树)

分类任务。电影评价的情感分析。基于单个句子的分类任务
 CoLA

the corpus of linguistic acceptability

(语言可接受性语料库)

 分类任务,预测一个句子是否是acceptable。
 SQuAD

the standFord question answering dataset

(斯坦福问答数据集)

 question,从phrase中选取answer。问答任务
  NER

named entity recognition

(命名实体识别)

 命名实体识别

参考:

https://blog.csdn.net/cuipanguo/article/details/84584723

https://zhuanlan.zhihu.com/p/48612853

  • 5
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值