NLP基准测试总结

本文总结了自然语言处理领域的两大基准测试——GLUE和SQuAD。GLUE包含了9项NLU任务,如CoLA、SST、QQP等,用于评估模型的综合理解能力。SQuAD是一个阅读理解数据集,要求算法从文章中找出问题的答案。这些基准测试对于推动NLP技术的发展起着重要作用。
摘要由CSDN通过智能技术生成

先把GLUE榜单地址挂上 :https://gluebenchmark.com/leaderboard/

1、SQuAD(Stanford Question Answering Dataset)

SQuAD是什么?

SQuAD 是斯坦福大学于2016年推出的数据集,一个阅读理解数据集,给定一篇文章,准备相应问题,需要算法给出问题的答案。此数据集所有文章选自维基百科,数据集的量为当今其他数据集(例如,WikiQA)的几十倍之多。一共有107,785问题,以及配套的 536 篇文章。数据集的贡献者为斯坦福Percy Liang等人,Percy Liang是自然语言处理界的一位全才,在Semantic Parsing, QA, Optimization等多

2、GLUE

通常来说,NLP可以分为自然语言理解(NLU)和自然语言生成(NLG)。在NLU方面,我们拿时下最流行的GLUE(General Language Understanding Evaluation)排行榜举例,其上集合了九项NLU的任务,分别是:

  1. CoLA(The Corpus of Linguistic Acceptability):纽约大学发布的有关语法的数据集,该任务
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值