其一是数据的规模。WuDaoCorpus是目前规模最大的中文语料数据集,约为2TB文本,7250亿汉字,超出之前最大的中文语料库CLUECorpus2020二十倍以上。世界范围内,WuDaoCorpus在规模上也远超GPT3模型使用的英文数据集以及EleutherAI开源的全球最大英文数据集The-pile。
其二是隐私保护上的改进。谷歌、苹果等7家机构的学者在他们的论文中指出,GPT系列模型可能存在着隐私数据泄露的问题,通过模型输出的特征可以对隐私数据进行还原。为了杜绝这类问题,WuDaoCorpus在数据层面上着重去除了数据中包含的隐私信息,防止了隐私泄露。
其三是数据源的质量把控。在WuDaoCorpus构建过程中,会依据文字在网页中的占比、DOM树的完整性等特征对网页质量进行分类,并据此选取高质量的网页数据。通过对数据源的筛选,WuDaoCorpus的文本内容整体更加完整。
其四是数据来源的丰富性。智源研究院通过与其他机构的数据合作和网页数据的爬取,使得数据集涵盖了种类丰富的中文语料,包括新闻咨询、评论、百科、论坛、博客、学术论文等,这种丰富性使得WuDaoCorpus能够适用于不同种类的自然语言处理任务,训练出的模型泛化性更强。
其五是数据标签的完备性。WuDaoCorpus语料中包含医疗、法律、金融等领域标签,可以依据需求抽取某个特定领域的数据,用于训练该领域的模型,也可以用于对大模型进行微调,构建某一特定领域的应用。
具备以上优势后,可以说,WuDaoCorpus不仅是目前世界上最大的中文语料库,更是世界范围内质量最优的几个语料库之一。因此,它的发布对于我国NLP领域的发展有着积极的促进作用,也标志着在数据层面,我们和国际领先水平的距离正在缩短,这为训练规模更大、质量更高的GPT-3等先进模型的基础。WuDaoCorpus也得到清华大学、搜狗、人大、360等多家公司和单位的支持。
悟道-文源
悟道-文汇
悟道-文澜
悟道-文溯