论文阅读-中文任务基准测评CLUE

CLUE是一个中文自然语言理解任务的基准测试,旨在填补中文数据集和测评的空白,推动预训练模型在中文领域的应用。它包括单句、句子对和阅读理解三大类任务,提供了一个排行榜和TensorFlow工具包,便于模型验证和效果评估。
摘要由CSDN通过智能技术生成

论文地址
Github更新会更快一些

背景

为什么需要一个中文任务的基准测试

  1. 中文是一个大语种,有其自身的特定、大量的应用。
  2. 相对于英文的数据集,中文的公开可用的数据集还比较少。 很多数据集是非公开的或缺失基准测评的;多数的论文描述的模型是在英文数据集上做的测试和评估,那么对于中文效果如何?不得而知。
  3. 语言理解发展到当前阶段,预训练模型极大的促进了自然语言理解。 不同的预训练模型相继产生,但不少最先进的模型,并没有官方的中文的版本,也没有对这些预训练模型在不同任务上的公开测试,
    导致技术的发展和应用还有不少距离,或者说技术应用上的滞后。

所以,需要有一个中文任务的基准测试,包含一批大众能广泛使用和测评的数据集、适用中文任务的特点、能紧跟当前世界技术的发展。

1. 中文NLU任务

一共八个,有三大类:单句、句子对、阅读理解。

1.1 单句任务

单句的分类任务。

数据集 说明 评价方法
TNEWS 头条的新闻标题分类任务 acc
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值