开源大模型成功的背后离不开中国研究人员的贡献_陈述中国对该开源系统的贡献有多少?-CSDN博客

本文链接：https://blog.csdn.net/chattyfish/article/details/130944330

两个月前（2023年3月30日），LLaMA的微调版本Vicuna已经达到ChatGPT 90%的质量（1）. 由于LLaMA和GPT2都是开源模型，而GPT3，ChatGPT3.5和ChatGPT4都是闭源模型，所以笔者详细对比了LLaMA和GPT2的在模型层面的区别，以便从模型本身发现GPT的进步要素。需要说明的是，决定模型训练成功的要素非常多，但基本上可以分为算法要素和工程要素。工程要素当然非常重要，但算法要素决定了模型能力的上限，也决定性的影响了是否要对该模型进行大规模训练和工程建设的巨额投资的决策。所以我们有必要考察一下模型的在算法要素上的进步:

LLaMA模型中的不同点	作用	提出者	首次发表日期	证据	首次发表时作者身份	GPT2中类似实现	是否早于GPT2发表时间	是否早于GPT3.5 175B发布时间
均方根规范化（RMSNorm）	使用特征的均方根值来对该输入样本进行标准化	Biao Zhang	2019年10月16日	https://arxiv.org/abs/1910.07467	University of Edinburgh博士生	批量标准化	否	是
复数形式的旋转位置编码（RoPE）	在注意力计算中引入一个旋转操作来实现位置编码	苏剑林	2021年4月20日	https://arxiv.org/abs/2104.09864v1	深圳追一科技有限公司	固定位置编码	否	是
SiLU激活函数	-	-	2017年	-	-	ReLU	是
~~多头注意力机制~~	~~Transformer基本构架~~	-	~~2018年~~	-	-	~~多头注意力机制~~	是
~~残差连接~~	~~缓解梯度消失~~	-	~~2015年~~	-	-	~~残差连接~~	是
~~因果掩码~~	~~Transformer Decoder基本构架~~	-	~~2018年~~	-	-	~~因果掩码~~	是
~~其他通用结构~~	-	-	-	-	-	-	-	-

在上述表格中，我们之所以要区分该关键技术是否在GPT2发表前提出，还是在GPT2和GPT3之间提出，是由于GPT3以后OpenAI选择了闭源，隐藏了模型关键细节。作为闭源软件，GPT3+可以使用或借鉴公开发表的算法，从公开发表的算法得到启发，或者是另辟蹊径。反过来讲，开源软件无法借鉴闭源软件的秘密，所以闭源软件更占便宜。

但从效果来看，即使在闭源系统“占便宜”的基础上，且在GPT3.5 175B发布以前，中国研究人员已经发表了在开源系统中不弱于闭源的关键节点之一，使得全世界的用户和技术人员，包括笔者的团队都能从这一重要成果中获益。

Ref：

1. Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality | LMSYS Org