LLM大模型学习：开源大模型技术路线及趋势

黑客-雨

于 2024-09-27 20:26:33 发布

阅读量811

点赞数 15

文章标签：学习开源人工智能大模型学习语言模型大模型教程大模型入门

本文链接：https://blog.csdn.net/2401_84204207/article/details/142601741

版权

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | 知乎

作者 | 晴天

三个维度

大模型研发力量

学术机构
大模型创业公司
科技大厂

旗舰开源模型的形态/模态

基础大模型 -> instruct大模型 -> 多模态（VL大模型 -> 类gpt-4o大模型）

时间线

23年上半年
23年下半年
24年
25年

核心观察

学术机构及创业公司式微，科技大厂主导开源大模型。

随着资源需求越来越大，学术机构由于资金不足而逐渐式微，基础大模型的开源主力，从百花齐放收敛到科技大厂，而前沿模型尤以llama及qwen为主。（比如，智源研究院不再发布新的基础大模型，上海AI实验室开源的大模型一直未能突破20B）

科技大厂，除meta（llama）和阿里（qwen）外，虽然谷歌、微软、苹果也加入开源赛道并愈加重视，但仍局限于30B以下的轻量模型。因此，前沿开源大模型，国外仍由llama引领（grok次之），国内由qwen引领（deepseek次之）。

大模型创业公司，除了x.ai和deepseek外，也逐渐回归商业，要么直接退出开源赛道，要么保守发布轻量版模型（比如，百川已经不再发布新的开源大模型，智谱GLM开源模型始终不超过10B，零一万物开源模型不超过34B，gpt/claude/minimax/kimi未开源）。

开源技术路线

仅论通用模型，不含领域模型。

（1）23年上半年

关键词：微调、汉化
痛点/机会点：没有足够好用的instruct模型、擅长中文的模型
彼时，llama1尚未发布instruct模型，不少学术机构及科技公司，从事基于llama的微调和汉化并开源（比如斯坦福的alpaca、UC伯克利的vicuna、IDEA研究院的ziya、链家科技的belle），也有部分组织直接攻入基础模型（比如智源研究院的aquila）。

（2）23年下半年

关键词：基础模型
痛点/机会点：基础模型还不够好
llama2同时发布基础和instruct模型，此时，微调llama的空间变小但汉化llama依旧很有必要。之后随着baichuan2-13B、qwen-72B的开源，汉化llama的必要性已经微乎其微。因此，开源生态的竞争缩小到基础模型上面，学术机构、创业公司频繁交替开源更强的基础模型（比如aquila2-70B、xverse-65B、deepseek-67B），主流的顶尖模型已推进到70B的门槛。

（3）2024年

关键词：多模态
痛点/机会点：没有足够好用的开源多模态大模型
由于顶尖模型的门槛已到70B，继续竞争太耗资源，而且难敌重金押注的llama（已经卷到405B），几乎所有学术机构及大部分科技公司退出顶尖开源模型的竞争，而将注意力和研发资源转向“并不太耗资源的”多模态大模型（比如internVL、llava、minicpm-v、cogvlm）。

（4）2025年（预期）

关键词：开源界的通用大模型竞争结束
痛点/机会点：转向大模型应用，包括agent、领域大模型25年甚至更早（24年底），meta会推出顶尖的多模态大模型llama3.1-v甚至llama4-v（阿里很可能推出qwen2-vl），届时，大部分学术机构及科技公司微调的多模态大模型将失去竞争力，大模型应用将广泛使用meta及阿里的开源多模态大模型。

在这里插入图片描述

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述