开源大模型成功的背后离不开中国研究人员的贡献

两个月前(2023年3月30日),LLaMA的微调版本Vicuna已经达到ChatGPT 90%的质量(1). 由于LLaMA和GPT2都是开源模型,而GPT3,ChatGPT3.5和ChatGPT4都是闭源模型,所以笔者详细对比了LLaMA和GPT2的在模型层面的区别,以便从模型本身发现GPT的进步要素。需要说明的是,决定模型训练成功的要素非常多,但基本上可以分为算法要素和工程要素。工程要素当然非常重要,但算法要素决定了模型能力的上限,也决定性的影响了是否要对该模型进行大规模训练和工程建设的巨额投资的决策。所以我们有必要考察一下模型的在算法要素上的进步:

LLaMA模型中的不同点作用提出者首次发表日期证据首次发表时作者身份GPT2中类似实现是否早于GPT2发表时间是否早于GPT3.5 175B发布时间
均方根规范化(RMSNorm)使用特征的均方根值来对该输入样本进行标准化Biao Zhang2019年10月16日https://arxiv.org/abs/1910.07467University of Edinburgh博士生批量标准化
复数形式的旋转位置编码(RoPE)在注意力计算中引入一个旋转操作来实现位置编码苏剑林2021年4月20日https://arxiv.org/abs/2104.09864v1深圳追一科技有限公司固定位置编码
SiLU激活函数--2017年--ReLU
多头注意力机制Transformer基本构架-2018年--多头注意力机制
残差连接缓解梯度消失-2015年--残差连接
因果掩码Transformer Decoder基本构架-2018年--因果掩码
其他通用结构--------

在上述表格中,我们之所以要区分该关键技术是否在GPT2发表前提出,还是在GPT2和GPT3之间提出,是由于GPT3以后OpenAI选择了闭源,隐藏了模型关键细节。作为闭源软件,GPT3+可以使用或借鉴公开发表的算法,从公开发表的算法得到启发,或者是另辟蹊径。反过来讲,开源软件无法借鉴闭源软件的秘密,所以闭源软件更占便宜。

但从效果来看,即使在闭源系统“占便宜”的基础上,且在GPT3.5 175B发布以前,中国研究人员已经发表了在开源系统中不弱于闭源的关键节点之一,使得全世界的用户和技术人员,包括笔者的团队都能从这一重要成果中获益。

Ref:

1. Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality | LMSYS Org

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值