引用:https://www.cnblogs.com/demo-deng/p/12411760.html
项目地址:https://github.com/chineseGLUE/chineseGLUE
ChineseGLUE 是一个中文语言理解测评基准,思路源于 GLUE,包括:
1)中文任务的基准测试,覆盖多个不同程度的语言任务
一个包含若干句子或句子对语言理解任务的基准。当前,这些任务中使用的数据集是公开的,2019 年底前将收录具备私有测试集的数据集。
2)公开的排行榜
一个用于性能跟踪的公开排行榜。你可以提交跟这些任务相关的预测文件,每个任务都会被评估打分,最后会有一个总分。
排行榜会定期更新,并迅速扩大可公开使用和测评的数据集数量
TNEWS:文本分类;
LCQMC:语义相似度;
XNLI:自然语言推理;
INEWS:情感分析;
DRCD & CMRC2018:阅读理解;
cmrc2018 仅开发集结果。
3)基线模型,包含开始的代码、预训练模型
ChineseGLUE 任务的基线。基线应该是在 TensorFlow,PyTorch,Keras 和 PaddlePaddle 中可使用的。
4)语料库,用于语言建模、预训练或生成型任务
用于预训练或语言建模研究的巨型原始语料库,大约 10G。
2020 年上半年,至少具备 30G 的原始语料库;到 2020 年底将包含充足的原始语料库(例如 100G),它足够大,以至于你不再需要那种用于通用语言建模的原始语料库。
你可以将其用于常规用途或特定领域,甚至用于文本生成。当用于特定领域时,你可以选择自己感兴趣的语料库。
数据集
ChineseGLUE 的目标是包含 8 个覆盖不同任务的有代表性的数据集,包括:
1. LCQMC 口语化描述的语义相似度任务
输入是两个句子,输出是 0 或 1。其中 0 代表语义不相似,1 代表语义相似。
2. XNLI 语言推断任务
跨语言理解的数据集,给定一个前提和假设,判断这个假设与前提是否具有蕴涵、对立、中性关系。
3.TNEWS 今日头条中文新闻(短文本)分类
4.INEWS 互联网情感分析任务
5.DRCD 繁体阅读理解任务
台达阅读理解资料集 Delta Reading Comprehension Dataset (DRCD)属于通用领域繁体中文机器阅读理解资料集,本资料集期望成为适用于迁移学习之标准中文阅读理解资料集。
数据格式和 squad 相同,如果使用简体中文模型进行评测的时候可以将其繁转简 (本项目已提供)
6.CMRC2018 简体中文阅读理解任务
https://hfl-rc.github.io/cmrc2018/
数据格式和 squad 相同
7. CCKS2018 Task3 智能客服问句匹配
该数据集是自动问答系统语料,共有 100,000 对句子对,并标注了句子对相似度值,取值为 0 或 1(0 表示不相似,1 表示相似),并按 70:20:10 比例分割成训练集、开发集和测试集。数据中存在错别字、语法不规范等问题,但更加贴近工业场景。
8. MSRANER 命名实体识别
该数据集共有 5 万多条中文命名实体识别标注数据(包括人名、地名、组织名),分别用 nr、ns、nt 表示,其他实体用 o 表示。
9. 还在添加中
读者如果有定义良好的数据集,可以和创建团队联系。
数据集下载地址:https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip
基线模型代码
1、数据集整体下载,解压到 glue 文件夹里
cd glue
wget https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip
lcqmc 数据集,请从以下链接申请或搜索网络 :http://icrc.hitsz.edu.cn/info/1037/1146.htm
2、训练模型
a. 将预训练模型下载解压到对应的模型中 prev_trained_model 文件夹里。以 bert 和 albert 为例子:
b. 修改 run_classifier.sh 指定模型路径
c. 运行各个模型文件夹下的 run_classifier.sh 即可
sh run_classifier.sh
3、详见:基准模型-模型训练
https://github.com/chineseGLUE/chineseGLUE/tree/master/baselines
语料库:语言建模、预训练或生成型任务
可用于语言建模、预训练或生成型任务等,数据量超过 10G,主要部分来自于 nlp_chinese_corpus 项目。
当前语料库按照【预训练格式】处理,内含有多个文件夹;每个文件夹有许多不超过 4M 大小的小文件,文件格式符合预训练格式:每句话一行,文档间空行隔开。
包含如下子语料库(总共 14G 语料):
新闻语料: 8G 语料,分成两个上下两部分,总共有 2000 个小文件。
社区互动语料:3G 语料,包含 3G 文本,总共有 900 多个小文件。
维基百科:1.1G 左右文本,包含 300 左右小文件。
评论数据:2.3G 左右文本,含有 811 个小文件,合并 ChineseNLPCorpus 的多个评论数据,清洗、格式转换、拆分成小文件。