168个国产大模型，都是什么来头？哪个最有前途？

本文链接：https://blog.csdn.net/2401_84204207/article/details/139112306

虽然“最有前途”不好说，但是我可以帮大家排除一些错误方向：

开源大模型一定比闭源的有前途吗？
参数量大的模型一定就比小模型有前途吗？
榜单排名高的大模型一定更有前途吗？

168个国产大模型，都是什么来头？

1785年，瓦特改进了蒸汽机，人类从此摆脱了手工业的桎梏，迈向辉煌的蒸汽时代。

1870年，第二次工业革命光芒四溢，人类踏上了电气时代的漫长征程。

20世纪70年代后，数字化崛起，人类开始踏入互联网的无尽广阔领域。

时至今日，随着AI算法的不断演化和计算需求的迅猛增长，人工智能时代悄然降临。至于那匹引领人类前进的黑马是谁，是Chat GPT，或者是Chat GLM？我不知道。

但可预见的是，AI大模型的影响力不亚于蒸汽机、电力、数字化对人类生产方式的影响，它们将为社会技术发展带来另一次飞跃，带来新一轮指数级信息爆炸。

而我国，依然在这场革命中涌现出了强大的科技与智慧的力量。

中国本土大型模型的崛起进程始于2017年，当时中国的科研机构与企业积极投身深度学习与自然语言处理领域，默默耕耘，蓬勃至今。据不完全统计，目前国内已有AI大模型168家（数据来源：http://github.com/wgwang/LLMs-In-China），比题主提到时，足足翻了一倍。

其中，通用大模型24个，用于科研/医疗/政务/公共服务的模型40个，其他均为商业应用及服务提供。值得一提的是，其中开源模型只有几家，名列前茅的，分别是智谱AI和清华大学 KEG 实验室联合发布的ChatGLM。

随着我们深入了解人工智能，从科幻作品中的描绘，到第一次尝试对话的新奇体验，再到探索大模型的深层架构，我们正将大模型作为自己在物理世界之外的一种智慧延伸。这些智慧触角终将揭开我们科技未来的迷雾。中国的人工智能之路虽漫长曲折，但我们正稳步走出这个序章，迈向光明的未来。

开源大模型一定比闭源的有前途吗？

如何评价一个AI模型“好不好”“有没有发展”，首先就躲不掉“开源”和“闭源”两条发展路径。

在中国，大型模型可分为两大类，一类以模型本身为核心，另一类则以服务应用为主导。首先是以Chat GLM和百川为代表的通用开源模型。它们的独特之处在于在中文语境下的出色表现。为了提升这类模型在处理中文方面的能力，开发者通常采用两种策略：一是扩大词汇表的规模，二是增加中文语料库的比例。开源模型的优势在于易于使用，只需强大的GPU即可运行。不足之处在于主观体验和论文中的数据可能存在差异，实际使用时性能可能不如宣传所示。

另一类大型模型数量较多，这些大模型通常以套壳llama或其他类似模型为基础，在特定数据集上进行深度的个性化定制和优化。特点在于它们专注于特定市场细分领域，通过深度定制和优化以提升性能。当然，从论文角度看,某些模型通过特殊方法能够接近或甚至超越Chat GPT，在特定领域的任务上表现出色。

在8月推出的Llama 2 中可以看到，模型系列包含 70 亿、130 亿和 700 亿三种参数变体。此外还训练了 340 亿参数变体，相比于 Llama 1的训练数据多了40%，因此，基于Llama的开源模型进行数据收集调用及调试的“再生长大模型”，也并非没有可能实现弯道超车。

在我国，目前还是以第二类大型模型主要以服务为主导，如大家比较关注的百度、讯飞等推出了通用大型模型。这些模型不开源，用户需通过其提供的服务来使用。它们不仅提供聊天服务，还需要在特定场景中应用以实现盈利。这些模型的服务模式和费用基本与Chat GPT及其他竞争对手保持一致，以在市场竞争中取得优势。

当然，开源是有一定的技术及成本优势的。

首先，庞大参数数量的开源大型模型，性能已媲美超级规模封闭模型。其次，通过极少的预算、适度的数据和低阶适应技术（LoRA）等工具，就可以使参数相对较小的开源大型模型达到令人满意的性能水平。这种技术创新降低了训练成本，为企业提供了可替代昂贵闭源模型的低成本解决方案。

自Llama2后，大模型圈风雨欲来，可商用开源成为了下一个各大厂商牟足了劲头实现的目标。可是否开源，难道就是最终评判某个大模型是否可以在这个斗兽场里存活的标准吗？

参数量大的模型一定就比小模型有前途吗？

这两天刚有一篇微软论文指出ChatGPT的参数量只有20B（200亿），而不是以往认为的100B以上（很多人认为是175B）。

虽然微软这篇论文后来撤稿了，不过很多分析说主要是因为涉密了，并不是说真的从聊天群里取的数据。

相比单一的参数量维度，宏观来说，大模型的评价其实可以分为以下几个维度：技术维度、商业应用、伦理责任

从技术角度来讲，哪个模型在深度学习、自然语言处理、计算机视觉等方面有独特的技术优势是最底层的核心逻辑。在此之上，模型的性能通常受训练数据和计算资源的限制。哪个模型拥有更多、更多样化的数据，以及更先进的计算能力？这将直接影响模型的前途。

从应用角度来说，大模型厂商自身是否制定了更具前瞻性的商业策略、合理的商业模式，是其长期存活市场的基础。而其选择的赛道是否满足了标的市场的实际需求，在细分垂直领域的适用性能做到最好，市场是否买单，就是保证它前途光明的必要条件。

最后一个，也是全世界都在面临的同一个问题，就是机器伦理与合规。哪个模型在道德和伦理方面表现出更高的责任感？是否有明确的道德准则，以确保模型在使用中不会伤害社会和个体？哪个模型有更好的合规准则？更好的数据隐私保护和安全措施？一不小心，《终结者》或许就会变成未来的现实……

而对于非投资市场及终端用户的业内人士来说，评价一个大模型的是非功过则更以数据和实践见真章。

最后的想法

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

-END-

👉AGI大模型学习路线汇总👈
大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）