卷大模型开源，正确姿势是什么？-CSDN博客

本文链接：https://blog.csdn.net/weixin_39640818/article/details/134746234

本文探讨了AI开源生态的变化，特别是预训练大模型的崛起，以及GPT-4和开源模型如LLAMA2之间的竞争。作者指出大模型的开源数量和参数规模的分布，并强调模型效果、生态和持续更新的重要性。以阿里通义千问的开源为例，展示了大模型在实际应用中的潜力和国产模型的发展趋势。

摘要由CSDN通过智能技术生成

原创：谭婧

从“古”至今，AI的江湖，都是开源引领技术发展。

（此处咬牙切齿表态：不接受反驳）。

虽然Stable Diffusion作为开源的图像生成模型，将图像生成提到了全新境界，但是GPT-4的出现，似乎动摇了人们的信念。

要我说，那些人只是信念不坚定。

眼看Meta公司（原脸书）LLAMA2挽回了不少尊严。

虽然GPT-4依然是地表最强。

你来我往，卷到极致。

谭老师我作为一个“开源党”，只想拍手叫好。

脑海中仰天长啸：开源大模型（LLM）何时赶上GPT-4？

为了这个小目标，《开源大模型卷死你系列》，还得更新200集。

我已经开始思考：看剧的时候啃鸭脖，选五香，还是选麻辣？

那些不服气开源模型的小伙伴，我再甩出几个证据：

证据一：

模型的保鲜期（Shelf Life）基本上是一年左右。以 2012 年里程碑模式AlexNet为例，六个月到一年之后就会出现效果接近的开源模型。

证据二：

Meta公司LLaMA系列、伯克利的 Vicuna、斯坦福的 Alpaca、Databricks的 Dolly，都在展示开源强大的可能性。

GPT系列在演进，

强大的开源模型也在陆续发布，

开源和闭源竞争加剧。

如今，卷得情况怎么样了?

先看图，观察一下这三家“开源大户”：

敢谈微见，再讲几点观察：

第一点

AI开源生态重心转移。

“预训练大模型”成为新的开源生态中心。

也就是说，无论训练什么规模的模型，把“预训练大模型”训练出来这件事成为“开源热门事件”，也可以加之微调，代表着模型结构以此为主流。

预训练模型百花齐放，是大势所趋。

以前，小模型是主流，大家在AI框架（比如Pytorch）上调算法，调来调去，搞算法创新。因为模型小，在框架层面的调用API就可以做算法创新。现在，大家在预训练大模型的基础上创新。准确地说，我们之前的AI生态重心在AI框架的API上。现在情况完全不同了，AI框架变成“幕后英雄”，大模型则变得“大红大紫。

第二点

500亿以上参数规模的模型开源数量极为稀少，千亿更是罕见。

2023年11月27日，浪潮信息发布“源2.0”大模型，刚刚跨过千亿参数门槛，其中有1026亿参数这个版本。2023年9月 “鹏城·脑海”（PengCheng Mind）大模型由高文院士团队研发，采用了国产化深度学习框架，参数规模2000亿。这个模型知道的人特别少，是个冷知识。很多人都误以为“源2.0”千亿版本的开源模型是“首个”。而早在两年前，智谱AI的千亿模型（GLM-130B）开源。

扶额苦笑，就算千亿模型开源了，能有算力跑得起来的玩家也是少数。没有办法，算力就是大模型训练的配套刚需。

第三点

从10亿到400亿区间，拥挤不堪。

这里简直是“红海赛道”。

我手动画一条横线，把参数规模从小到大（从1到10000）都标准在线上，再用点分成几个区间。

这个区间段里，写各个厂商，实验室的模型名称，写不下，实在写不下。

我认为，一个比较标志性的事件是百川智能创始人王小川很早就表态520亿参数不会开源。个人观点是百川智能团队作为“开源大户”，肯定能清楚判断出500亿以上参数模型发布数量会很少，这是一个专业且合理的预判。

第四点

互联网厂商分为“强势派”和“无为派”，对开源社区来说，大厂的参与始终都是好事。阿里算是强势派，同时又拥有云底座，对大模型生态有强烈的，建设好的欲望，正处于舍得投入的时期。

此处轻轻扶一把华为，华为有开源大模型，数量较少，鹏城盘古开源较早（2020年），后面节奏没有跟上。再就是基于华为昇腾昇思开源的“紫东太初2.0”的10亿参数（2022年），38亿参数（2023年）的两版模型，均为多模态大模型。

“无为派”就很多了，巨头就那么几家，谁一点模型都没开源，掰着手指头也能数出来。

第五点

没必要盲目追求参数数量，并不是越大越好。美国厂商团队也不比拼参数，都是效果和用途导向。目前，从开发者的反馈来看，投入产出比高的模型尺寸更受欢迎。

一般说来，开发者选大模型会有几个标准：

第一，模型效果好是基础分，效果不好，说啥也不顶用。

第二，生态好，社区好，再加之配套工具链全。

第三，持续性，开源社区最遗憾的事莫过于“啥也不说，直接停更”。持续投入好比一种保障，所以开源背后的团队，实力越强越好，不能仅靠“用爱发电”。

开源协议是加分项。当然越开放越好，不要暗藏陷阱，在知识产权这块，有些厂商有“暗藏陷阱”的经验。Llama2在商用方面有月活不超过7亿的限制条款。

回到第一点“效果好”这件事情，我亲耳听到多位专家在多个场合表达的观点十分一致：“大模型评测榜单（评测基准）被用得很有问题。”

还看到开发者在微信群里吐糟得更为激烈，他们还总结了“套路”：预训练“新”玩法：第一阶段普通预训练，第二部分拿榜单领域数据微调。”

所以，想通过评测证明一下就直接得出结论“全球最强”，这一做法并不科学。“榜单成绩”再亮眼，刻意刷榜恐怕也会收获“嘘声”，最终还得靠用户反馈说话。

榜单我没有本领做一个，倒是能给大家推荐一个抱抱脸（Huggingface）上的工具，帮助筛选真正适合自己的好用模型，选项做得非常细，我能想到的上面都有了，我没想到的，它也都有了。

开源社区里会分享出修改和优化的模型，我在抱抱脸社区搜baichuan，能搜出来179个模型，搜Qwen，能搜出来235个模型。

就在今天，阿里又把通义千问开源大模型的上限往上推了一把，高达720亿参数，推特上讨论热烈；

虽然LLAMA2有700亿参数，但对中文场景不够友好。目前，国内还没出现足以叫板Llama 2-70B的优质开源模型，720亿参数确实也属于稀缺尺寸。

阿里是如何选择这次开源发布规模的，720亿和18亿，一小一大两个规模？阿里内部员工告诉我，这次的开源尺寸是通过社区用户的痛点来确定的。

这次，阿里还开源了通义千问音频大模型（Qwen-Audio）。

我还听说，用于读图识物的Qwen-VL-72B模型新升级后的效果很好，暂时还没有开源。至此，通义千问的开源尺寸就很全面了：18亿、70亿、140亿、720亿，四款大语言基座模型。

我又找了业内几位专家了解到，大模型的能力想要快速普及，部署在常用电子设备上更好。比如，笔记本电脑。大模型作为类似Cortana助手背后的“力量”（内置到手机系统里），而不是安装了一个需要上网的应用程序。

有趣的是，有一位名叫“土土”开发者，骨灰级玩家，一位动手能力很强的工程师，从事电力系统控制优化方面工作；他基于通义千问140亿参数版本的开源模型，把上百万字的电力系统知识文档做成了一个检索知识库。

他的个人配置倒是很“奢华”，他说：“在家里买了个服务器，扔三四块显卡上去，下载Qwen，再搞个FRP快速反向代理，从阿里云上买最便宜的30多块钱一个多月的服务，这样就能通过外网访问家里的服务器，在单位上班的时候，也能用Qwen做实验。”

华东理工大学·X-D Lab（心动实验室）成员颜鑫说：“从可持续性、生态和场景适配这三个维度判断，通义千问成了当下最优解。此前有一家企业找我们合作，我们只用 20 万tokens的数据微调了Qwen基座模型，就得到了比另一家用百万级数据微调的模型更好的效果。这不仅证明了通义千问基座模型的能力，也证明了我们实验室有很好的行业know-how。”

开源社区卷卷更健康，活跃的开发者、积极的贡献者，这一把阿里通义千问的诚意我是看到了。希望国产开源大模型早日在开源和闭源两个江湖里“拔类超群”。让我们自己的大模型早日拥有碾压性的优势。

（完）