最近微软的一篇论文透露,gpt-3.5-turbo 这个大模型的参数规模是 20B,也就是 200 亿。业界一片哗然。
主要两种声音。一种说被骗了,说好的千亿参数哪去了?另一种惊讶,为啥用百亿规模就能达到这么好的效果,远超别的同规模,甚至更高规模的模型?
这到底是怎么回事?
在《01. 为什么AI发展到大模型才可以当人看?》中说过,目前公认,模型规模扩大,确实能提升效果。
OpenAI 有明确说,GPT-3 的参数规模 1750 亿。这也是它们官方最后一次公布参数规模。
GPT 3.5 ,也就是 ChatGPT 第一版使用的模型,因为效果好了不少,业内猜测在 2000 亿左右。
而宇宙最强的 GPT 4,按未经证实的泄露信息,达到了恐怖的 17600 亿。
那这个 gpt-3.5-turbo 是怎么回事呢?问题就在 turbo 这个词上。
开发者写代码调用 GPT 3.5 时,要调的模型内部名叫 text-davinci-003。后来出了个 gpt-3.5-turbo,不仅速度快了很多,价格一下子就便宜了 95%,而效果几乎没变化,让广大开发者非常开心。
哈工大车万翔教授他说肯定是做模型蒸馏缩小规模了。
这个「模型蒸馏」是个什么魔法?虽然 OpenAI 没说,但很多人猜,是「大模型训小模型」的套路。
用「当人看」的思路来理解,这其实就是「师傅教徒弟」。
一个院士级的老医生,大病小病疑难杂症都能治。他亲自调教的一个年轻医生,没他那么厉害,但也学到了老医生总结的非常多的经验套路,治常见病是完全没问题的。而常见病能占总病例的 90%。
Text-davinci-003 学了浩瀚的人类知识而生。Ta 在 ChatGPT 坐堂,成为史上最快用户过亿的产品,积累了海量的病例(对话数据)。Gpt-3.5-turbo 可能没去学那浩瀚的知识,只是学了这些病例。我们可以说 ta 「知其然而不知其所以然」,可以说 ta「应试教育」,可以说 ta 在某些情况下表现不好。但我们无法拒绝,ta 是真的便宜啊。
这就是 turbo 的由来。这就是蒸馏。这就是 200 亿参数可以达到接近 2000 亿参数效果的原因。百度文心大模型在推出 ERNIE-Bot 后,也推出了价格更低的 ERNIE-Bot-turbo。
我做过双盲实测,表现得并不差。还因为速度快一些而获好评。GPT-4 推出也有半年了,因为只有付费用户才能用,所以积累病例的速度慢一些。
但我猜,过段时间,便宜十倍的 gpt-4-turbo 肯定会出来。现在 ChatGPT 里用 GPT-4 的速度不就比之前快了很多了吗?大模型的衣钵传承,和咱们人类的知识传承,颇有相似。
所以,咱们得把 AI 当人看。