CLUE--汉语语言理解评估基准

sirius·月

已于 2023-01-30 14:38:14 修改

阅读量1k

点赞数

文章标签：自然语言处理

于 2023-01-29 20:18:47 首次发布

原文地址：CLUE
github链接：CLUE

1 介绍

现有的语言评估基准大多是英语，例如GLUE和SuperGLUE。但对于中文语言模型来说，却没有合适的评估基准，所以CLUE团队就引入了一个综合的汉语语言理解评估(CLUE)基准。该基准包含了9个不同的自然语言理解任务的集合，包括语义相似性、自然语言推理、短文本分类、具有大量类的长文本分类以及不同类型的机器阅读理解任务。

未标记语料库的大小和质量在语言模型预训练中起着至关重要的作用，已经有流行的英语预训练语料库，如维基百科和多伦多图书语料库等。然而几乎没有任何大规模的中文开源预训练数据集，为此，CLUE团队构建并发布一个标准的CLUE预训练数据集:一个包含超过214 GB原始文本和大约760亿中文单词的语料库。

2 任务

九个任务的描述和统计信息
在这里插入图片描述

2.1 单句任务

TNEWS：今日头条新闻标题文本分类，由2018年5月前今日头条发布的中文新闻组成，共计73,360个标题。每个标题都被标记为15个新闻类别中的一个(金融、科技、体育等)，任务是预测标题属于哪个类别。

IFLYTEK：科大讯飞(科大讯飞股份有限公司，2019)包含17332个应用程序描述。这项任务是将每一项描述归入119个类别之一，比如食物、汽车租赁、教育等。

CLUEWSC2020：WSC Winograd模式挑战中文版，中文指代消解任务。模型被要求判断句子中的代词和名词(短语)是否共指(二元分类)。题目以真假判别的方式出现，如：句子：这时候放在床上枕头旁边的手机响了，我感到奇怪，因为欠费已被停机两个月，现在它突然响了。需要判断“它”指代的是“床”、“枕头”，还是“手机”？

2.2 句子对任务

AFQMC：蚂蚁金服题库，来自蚂蚁科技探索大会(ATEC)开发者竞赛。这是一个二元分类任务，旨在预测两个句子是否语义相似。

CSL：中文科学文献数据集包含中国核心期刊的中文论文摘要及其关键词，并且涵盖自然科学和社会科学的多个领域。通过tf-idf生成假关键字，并将其与真实关键字混合。给出一个摘要和一些关键词，任务是判断这些关键词是否都是一篇论文的原始关键词。主要评估模型判断关键字是否能概括文档的能力。

OCNLI：原始中国自然语言推理(OCNLI)是根据MNLI 的程序收集的。OCNLI由5种类型的56k推理对组成:新闻、政府、小说、电视文本和电话文本，前提是从中文来源收集的，并聘请语言专业的大学生撰写假设。注释器协议与MNLI是一致的。CMNLI数据由两部分组成：XNLI和MNLI。数据来自于fiction，telephone，travel，government，slate等，对原始MNLI数据和XNLI数据进行了中英文转化，保留原始训练集，合并XNLI中的dev和MNLI中的matched作为CMNLI的dev，合并XNLI中的test和MNLI中的mismatched作为CMNLI的test，并打乱顺序。该数据集可用于判断给定的两个句子之间属于蕴涵、中立、矛盾关系。

2.3 机器阅读理解

CMRC 2018：CMRC 2018 是一个基于跨度提取的中文机器阅读理解数据集。这个数据集包含了大约19071个来自维基百科段落的人工注释问题。在CMRC 2018中，所有样本都由上下文、问题和相关答案组成。此外，答案是上下文中的文本跨度。

ChID：ChID 是一个大规模的中国成语完形填空测试数据集，其中包含约498,611个段落，其中623,377个空格，涵盖新闻、小说和散文。候选词汇库包含3848个汉语成语。对于文章中的每个空白，有10个备选习语，其中有一个黄金选项，几个相似的习语，其他习语从字典中随机选择。

C³：C³是第一个自由形式的中文选择题机器阅读理解数据集。给定一份文件，无论是对话还是更正式的混合体裁文本，以及一个不局限于单一问题类型的自由形式的问题(如，是/否问题)，任务是从与相应问题相关的所有(2到4)选项中选择正确的答案选项。我们对13,369个文档使用了所有19,577个通用域问题，并遵循原始的数据分割。这些问题来自教育专家精心设计的语言考试，用于评估语言学习者的阅读理解能力，类似于英语考试RACE 和DREAM。

3 预训练数据集

CLUECorpus2020-small：它包含14GB的中文文本，包括以下类型:

News：这个子语料库来自自媒体平台，从大约63K个来源的250万篇新闻文章中抓取了30亿中文单词。
WebText：WebText子语料库有410万个问题和答案，从一些类似于Reddit的网站(如悟空问答、知乎、搜狗问问等)中抓取。为了保证文章的质量，只有获得3个或更多赞的答案才会被包括在内。
Wikipedia ：该子语料库收集自维基百科(中文维基百科)的中文内容，包含约1.1 GB的原始文本，4亿个中文单词，涉及广泛的主题。
Comments：这些评论由SophonPlus4从大众点评网和亚马逊等电子商务网站收集。这个子集有大约2.3 GB的原始文本和8亿个中文单词。

CLUECorpus2020：包含100 GB的中文原始语料库，是从普通抓取中检索出来的。这是一个定义良好的数据集，可以直接用于预训练，而不需要额外的预处理。CLUECorpus2020包含大约29K个单独的文件，每个文件都遵循训练集的预训练格式。

CLUEOSCAR：OSCAR是通过对Common Crawl语料库进行语言分类和过滤而得到的一个庞大的多语言语料库。包含250GB中文原始语料库。进一步筛选，最终得到100GB中文语料库。