CPM-2细节发布！10大技术打通大模型「任督二脉」，单卡单机跑「千亿模型」不再是梦...

智源社区

于 2021-06-22 20:08:55 发布

阅读量4.1k

点赞数 2

文章标签：大数据算法编程语言 python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/118125026

版权

清华大学「悟道·文源」团队发布CPM-2，通过优化数据清洗、TDS加速框架和知识继承，实现大模型在单卡单机上运行。模型具备中英文理解与生成能力，性能优越。团队开源了预训练框架和模型，旨在推动大模型的平民化和高效应用。

摘要由CSDN通过智能技术生成

智源导读：最近两年，预训练模型的参数量以每年 10 倍的速度迅猛增长，然而其计算效率的瓶颈也日渐显现。

例如以单块NVIDIA V100 GPU训练，GPT-1的计算时间是 3 天，到GPT-2 计算时间就达到了200天，GPT-3的计算时间则增加到90年。

因此如何在提升模型性能的基础上，提升模型计算效率，成为大规模预训练模型研究的重点，也成为预训练模型能否走向实际应用的关键。

近日，以清华大学副教授刘知远牵头的“悟道·文源”团队发布的 CPM-2，尝试了从大模型预训练的整个流程去提升计算效率。

CPM-2技术文章：https://arxiv.org/abs/2106.10715

整理：贾伟，张正彦

校对：张正彦，刘知远

CPM-2，即大规模高效预训练语言模型（Large-Scale Cost-Effective Pre-Trained Language Models），其中的“2”则是相对于去年 10月份该团队发布的 CPM-1，这是一个以中文为核心的大规模预训练语言模型（Large-Scale Chinese Pre-Trained Language Model）。

本次发布模型整体情况如下：

团队利用50TB大规模数据和智源算力平台制作发布的CPM-2模型，兼具中英文语言的理解和生成能力，在识记、阅读、分类、推理、跨语、生成、概括等七大机器语言能力测试中，与现有开源预训练模型相比整体性能显著最优。公开可下载的CPM-2模型分为3个不同版本：110亿参数中文模型、110亿参数中英模型以及1980亿中英MoE模型。

模型下载地址：https://resource.wudaoai.cn

CPM-2的高效预训练框架围绕三个部分进行：模型预训练、模型微调和模型推理。以下我们将把 CPM-2的总体架构分为对应三个部分，来分别介绍其关键技术。

01

模型预训练

针对模型预训练，悟道·文源团队从数据集、知识继承以及训练方式等各个环节进行了优化和改进。整个预训练过程，简单来说：

对50TB的原始数据进行清洗得到2.6TB训练数据集，结合TDS加速框架和知识继承，采用先中文、再多语言、再MoE的多阶段预训练方案。

1、训练数据集：50TB到2.6TB的清洗

CPM-2的预训练数据集来自于智源研究院发布WuDaoCorpus（resource.wudaoai.cn），其中包含全球最大

最低0.47元/天解锁文章

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
CPM-2细节发布！10大技术打通大模型「任督二脉」，单卡单机跑「千亿模型」不再是梦...

智源导读：最近两年，预训练模型的参数量以每年 10 倍的速度迅猛增长，然而其计算效率的瓶颈也日渐显现。例如以单块NVIDIA V100 GPU训练，GPT-1的计算时间是 3 天，到GPT...
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。