WuDaoCorpus

最新推荐文章于 2024-08-19 11:18:35 发布

愚昧之山绝望之谷开悟之坡

最新推荐文章于 2024-08-19 11:18:35 发布

阅读量1k

点赞数

分类专栏：悟道智源术语

本文链接：https://blog.csdn.net/qq_15821487/article/details/115145861

版权

术语同时被 2 个专栏收录

478 篇文章 7 订阅

订阅专栏

悟道智源

1 篇文章 0 订阅

订阅专栏

其一是数据的规模。WuDaoCorpus是目前规模最大的中文语料数据集，约为2TB文本，7250亿汉字，超出之前最大的中文语料库CLUECorpus2020二十倍以上。世界范围内，WuDaoCorpus在规模上也远超GPT3模型使用的英文数据集以及EleutherAI开源的全球最大英文数据集The-pile。

其二是隐私保护上的改进。谷歌、苹果等7家机构的学者在他们的论文中指出，GPT系列模型可能存在着隐私数据泄露的问题，通过模型输出的特征可以对隐私数据进行还原。为了杜绝这类问题，WuDaoCorpus在数据层面上着重去除了数据中包含的隐私信息，防止了隐私泄露。

其三是数据源的质量把控。在WuDaoCorpus构建过程中，会依据文字在网页中的占比、DOM树的完整性等特征对网页质量进行分类，并据此选取高质量的网页数据。通过对数据源的筛选，WuDaoCorpus的文本内容整体更加完整。

其四是数据来源的丰富性。智源研究院通过与其他机构的数据合作和网页数据的爬取，使得数据集涵盖了种类丰富的中文语料，包括新闻咨询、评论、百科、论坛、博客、学术论文等，这种丰富性使得WuDaoCorpus能够适用于不同种类的自然语言处理任务，训练出的模型泛化性更强。

其五是数据标签的完备性。WuDaoCorpus语料中包含医疗、法律、金融等领域标签，可以依据需求抽取某个特定领域的数据，用于训练该领域的模型，也可以用于对大模型进行微调，构建某一特定领域的应用。

具备以上优势后，可以说，WuDaoCorpus不仅是目前世界上最大的中文语料库，更是世界范围内质量最优的几个语料库之一。因此，它的发布对于我国NLP领域的发展有着积极的促进作用，也标志着在数据层面，我们和国际领先水平的距离正在缩短，这为训练规模更大、质量更高的GPT-3等先进模型的基础。WuDaoCorpus也得到清华大学、搜狗、人大、360等多家公司和单位的支持。

悟道-文源
悟道-文汇
悟道-文澜
悟道-文溯