benchmark: GLUE ,CoQA,SQuAD

最新推荐文章于 2025-03-09 12:43:17 发布

apche CN

最新推荐文章于 2025-03-09 12:43:17 发布

阅读量882

点赞数

分类专栏： 01.NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/apache/article/details/114718868

版权

01.NLP 专栏收录该内容

17 篇文章

订阅专栏

本文介绍了自然语言处理领域的三个重要数据集：GLUE基准、CoQA对话问答挑战及SQuAD2.0阅读理解数据集。GLUE是一个包含多种语言理解任务的评估基准；CoQA提供了一个基于对话的问答系统评测平台；而SQuAD2.0则通过引入大量不可回答的问题，提高了机器阅读理解的难度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

===================================================================

General Language Understanding Evaluation (GLUE) benchmark

STB 回归问题，其余皆为单句子，或句子对分类问题。

MNLI是三分类，其余皆为二分类。

Ref

GLUE: A MULTI-TASK BENCHMARK AND ANALYSIS PLATFORM FOR NATURAL LANGUAGE UNDERSTANDING
https://openreview.net/pdf?id=rJ4km2R5t7

任务 https://gluebenchmark.com/tasks
排行榜 https://gluebenchmark.com/leaderboard

GLUE: 自然语言理解的标杆
https://blog.csdn.net/weixin_43269174/article/details/106382651

Ref

===================================================================

CoQA ,A Conversational Question Answering Challenge 问答系统数据集
paper https://arxiv.org/pdf/1808.07042v1.pdf

github https://stanfordnlp.github.io/coqa/

CoQA 基于对话的问答系统
https://blog.csdn.net/cindy_1102/article/details/88560048

===================================================================

SQuAD2.0,The Stanford Question Answering Dataset 阅读理解数据集

Stanford Question Answering Dataset (SQuAD) is a reading comprehension dataset,
SQuAD2.0 combines the 100,000 questions in SQuAD1.1 with over 50,000 unanswerable questions
written adversarially by crowdworkers to look similar to answerable ones.
https://rajpurkar.github.io/SQuAD-explorer/

===================================================================

===================================================================

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。