CPM-2细节发布!10大技术打通大模型「任督二脉」,单卡单机跑「千亿模型」不再是梦...

清华大学「悟道·文源」团队发布CPM-2,通过优化数据清洗、TDS加速框架和知识继承,实现大模型在单卡单机上运行。模型具备中英文理解与生成能力,性能优越。团队开源了预训练框架和模型,旨在推动大模型的平民化和高效应用。
摘要由CSDN通过智能技术生成

智源导读:最近两年,预训练模型的参数量以每年 10 倍的速度迅猛增长,然而其计算效率的瓶颈也日渐显现。

例如以单块NVIDIA V100 GPU训练,GPT-1的计算时间是 3 天,到GPT-2 计算时间就达到了200天,GPT-3的计算时间则增加到90年。

因此如何在提升模型性能的基础上,提升模型计算效率,成为大规模预训练模型研究的重点,也成为预训练模型能否走向实际应用的关键。

近日,以清华大学副教授刘知远牵头的“悟道·文源”团队发布的 CPM-2,尝试了从大模型预训练的整个流程去提升计算效率。

CPM-2技术文章:https://arxiv.org/abs/2106.10715

整理:贾伟,张正彦

校对:张正彦,刘知远

CPM-2,即大规模高效预训练语言模型(Large-Scale Cost-Effective Pre-Trained Language Models),其中的“2”则是相对于去年 10月份该团队发布的 CPM-1,这是一个以中文为核心的大规模预训练语言模型(Large-Scale Chinese Pre-Trained Language Model)。

本次发布模型整体情况如下:

团队利用50TB大规模数据和智源算力平台制作发布的CPM-2模型,兼具中英文语言的理解和生成能力,在识记、阅读、分类、推理、跨语、生成、概括等七大机器语言能力测试中,与现有开源预训练模型相比整体性能显著最优。公开可下载的CPM-2模型分为3个不同版本:110亿参数中文模型、110亿参数中英模型以及1980亿中英MoE模型。

模型下载地址:https://resource.wudaoai.cn

CPM-2的高效预训练框架围绕三个部分进行:模型预训练、模型微调和模型推理。以下我们将把 CPM-2的总体架构分为对应三个部分,来分别介绍其关键技术。

  

01

模型预训练

针对模型预训练,悟道·文源团队从数据集、知识继承以及训练方式等各个环节进行了优化和改进。整个预训练过程,简单来说:

对50TB的原始数据进行清洗得到2.6TB训练数据集,结合TDS加速框架和知识继承,采用先中文、再多语言、再MoE的多阶段预训练方案。

1、训练数据集:50TB到2.6TB的清洗

CPM-2的预训练数据集来自于智源研究院发布WuDaoCorpus(resource.wudaoai.cn),其中包含全球最大

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值