多语言语料库“万卷·丝路”发布，AI赋能共建“一带一路”_万卷丝路-泰语(wanjuan-thai)数据集-CSDN博客

本文链接：https://blog.csdn.net/opendatalab/article/details/145064902

随着共建“一带一路”进入高质量发展新阶段，科技创新与合作将在其中发挥更关键的作用。上海人工智能实验室（上海AI实验室）通过研发先进数据智能技术，提供多语言语料库等举措，探索以人工智能赋能高质量共建“一带一路”。

1月9日，上海AI实验室联合大模型语料数据联盟成员发布了“万卷·丝路”多语言预训练语料库，为多语言大模型训练提供高质量数据支撑。

“万卷·丝路”首期开源了包含泰、俄、阿、韩、越等五个语种的语料，总规模超1.2TB（单语种均超过150GB），Token总数超过300B，涵盖使用上述语种国家地区的生活、百科、文化、新闻等七大领域数据。

开源链接：https://opendatalab.com/applyMultilingualCorpus

WanJuan-Thai：万卷-丝路（泰语）https://opendatalab.com/OpenDataLab/WanJuan-Thai
WanJuan-Russian：万卷-丝路（俄语）https://opendatalab.com/OpenDataLab/WanJuan-Russian
WanJuan-Korean：万卷-丝路（韩语）https://opendatalab.com/OpenDataLab/WanJuan-Korean
WanJuan-Vietnamese：万卷-丝路（越南语）https://opendatalab.com/OpenDataLab/WanJuan-Vietnamese
WanJuan-Arabic：万卷-丝路（阿拉伯语） https://opendatalab.com/OpenDataLab/WanJuan-Arabic

海量数据+细分领域，适应多样化研究需求

数据是人工智能重要的基础设施，数据质量是决定人工智能应用能力的关键因素之一。针对多语言语料库发展不平衡、高质量语料短缺的研究现状，上海AI实验室开源了“万卷·丝路”多语言语料库。作为综合性文本语料库，“万卷·丝路”采集了多个国家地区的网络公开信息、文献、专利等资料，数据总规模超1.2TB，Token总数超过300B（300 billion），处于国际领先水平。首期开源的语料库主要由泰语、俄语、阿拉伯语、韩语和越南语5个子集构成，每个子集的数据规模均超过150GB。

基于“书生·浦语”智能标签分类体系，上海AI实验室研究团队将每个语料子集细分为7个大类和32个小类，覆盖历史、政治、文化、房产、购物、天气、餐饮、百科、专业知识等多类具有语言所在地特征内容，便于研究者根据具体需求检索数据，并可适应不同研究领域多样化需求。