文章目录 背景 1. 中文NLU任务 1.1 单句任务 1.2 句子对任务 1.3 阅读理解 2. 工具 3. 验证集 论文地址 Github更新会更快一些 背景 为什么需要一个中文任务的基准测试 中文是一个大语种,有其自身的特定、大量的应用。 相对于英文的数据集,中文的公开可用的数据集还比较少。 很多数据集是非公开的或缺失基准测评的;多数的论文描述的模型是在英文数据集上做的测试和评估,那么对于中文效果如何?不得而知。 语言理解发展到当前阶段,预训练模型极大的促进了自然语言理解。 不同的预训练模型相继产生,但不