两个月前(2023年3月30日),LLaMA的微调版本Vicuna已经达到ChatGPT 90%的质量(1). 由于LLaMA和GPT2都是开源模型,而GPT3,ChatGPT3.5和ChatGPT4都是闭源模型,所以笔者详细对比了LLaMA和GPT2的在模型层面的区别,以便从模型本身发现GPT的进步要素。需要说明的是,决定模型训练成功的要素非常多,但基本上可以分为算法要素和工程要素。工程要素当然非常重要,但算法要素决定了模型能力的上限,也决定性的影响了是否要对该模型进行大规模训练和工程建设的巨额投资的决策。所以我们有必要考察一下模型的在算法要素上的进步:
LLaMA模型中的不同点 | 作用 | 提出者 | 首次发表日期 | 证据 | 首次发表时作者身份 | GPT2中类似实现 | 是否早于GPT2发表时间 | 是否早于GPT3.5 175B发布时间 |
均方根规范化(RMSNorm) | 使用特征的均方根值来对该输入样本进行标准化 | Biao Zhang | 2019年10月16日 | https://arxiv.org/abs/1910.07467 | University of Edinburgh博士生 | 批量标准化 | 否 | 是 |
复数形式的旋转位置编码(RoPE) | 在注意力计算中引入一个旋转操作来实现位置编码 | 苏剑林 | 2021年4月20日 | https://arxiv.org/abs/2104.09864v1 | 深圳追一科技有限公司 | 固定位置编码 | 否 | 是 |
SiLU激活函数 | - | - | 2017年 | - | - | ReLU | 是 | |
- |
在上述表格中,我们之所以要区分该关键技术是否在GPT2发表前提出,还是在GPT2和GPT3之间提出,是由于GPT3以后OpenAI选择了闭源,隐藏了模型关键细节。作为闭源软件,GPT3+可以使用或借鉴公开发表的算法,从公开发表的算法得到启发,或者是另辟蹊径。反过来讲,开源软件无法借鉴闭源软件的秘密,所以闭源软件更占便宜。
但从效果来看,即使在闭源系统“占便宜”的基础上,且在GPT3.5 175B发布以前,中国研究人员已经发表了在开源系统中不弱于闭源的关键节点之一,使得全世界的用户和技术人员,包括笔者的团队都能从这一重要成果中获益。
Ref:
1. Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality | LMSYS Org