大模型发展太快了,还记得年初 Deepseek R1 的发布吗?才过了4个月,几乎每一家模型厂商都推出了王炸级的模型。
从指令型、多模态发展到推理型和Agentic代理型,虽然不同厂家的模型都有了各自的特点和擅长,用户根据场景来选择有哪个模型,但顶不住 LLM行业( Large Language Model)发展太快, 先不说应用的发展,就LLM的数量和版本多的就让用户迷惑。
比如在看到OpenAI近10个模型,你会不会遇到下面的场景:
加上自媒体老师们的夸张渲染,一天没跟上AI新闻,就感觉自己的认知又落后了。
所以为了响应社群朋友提的需求,这篇文章就来分析下目前有哪些大模型,该如何选择?
当我们在说AI的时候,通常指的是现在我们所使用的和AI相关的产品,粗略的分类,它包含两方面:
- 大模型:如GPT、Claude等,能够理解自然语言,生成文本、图像、音视频内容
- AI 应用:在大模型基础上构建的AI产品,如AI搜索、AI知识库、AI浏览器
光在这两个层面就拓展出了许多的赛道,别说用了,认都认不全。
AI应用的目的本是提高我们效率而生,但现在却成了我们认识和用好AI最大的迷惑点。
一天出好几个,个个都被自媒体夸到天了、每一个颠覆都觉得明天就要失业了,但逐渐好多应用被忘记了,就像coze和manus你还在用吗?
这些层出不穷的AI应用,根本用不过来,也不必因为没用到或用不到而焦虑。
要知道他们背后的能力都是来源于 大语言模型,请相信以下几个事实:
- 模型的发展速度和数量一定是小于AI应用的
- 模型能力的提升才带来应用能力的提升
别被AI自媒体夸张的表述迷惑了,认识模型才能更好的理解我们所说的AI的能力和边界。
一、大模型的发展分析
2022年11月30日,OpenAI公开发布ChatGPT,开启了AI发展的新纪元。ChatGPT凭借卓越的自然语言理解和生成能力,迅速渗透各行各业,成为AI技术走向大众视野的重要里程碑。
自2022年以来,AI模型厂商分为两大阵营:以阿里巴巴Qwen、DeepSeek、Mistral AI、Llama为代表的开源派,以及以OpenAI、Anthropic、Google为代表的闭源派。
GPT-4o和Claude 3.7等专有模型虽然是当前最受欢迎且功能最强大的,但它们都采用闭源策略。这些公司严格保密模型的源代码、训练策略、模型权重,甚至连基本的参数数量都不对外公开。用户只能通过官方提供的聊天机器人、应用程序或API来使用这些模型,无法在自己的服务器上部署。
相比之下,开源模型提供了更高的透明度和灵活性。用户可以直接从Hugging Face模型平台下载Llama 3、Gemma 2和DeepSeek R1,并在自己的设备上运行。更重要的是,用户可以用自己的数据重新训练这些模型,开发者也能基于它们开发定制化的聊天机器人和应用程序。
这两大阵营的发展持续影响着整个AI行业的格局,以下是它们从2024年至今的发展时间线:
二、大模型的分类
看完上面的文本生成类模型的发展线,可能更迷糊了,怎么会这么多模型?
如果我们按照模型的生成类型来认识他们,会更好理解,也更容易判别该如何使用。
可以粗略的分为文本生成、图像生成、视频生成、音频生成:
- 文本生成模型:通过对大量文本数据的训练,模型学习语言规律和知识,能够理解上下文并生成连贯的文本内容。
- 图像生成模型:通过对海量图像数据训练,模型学习将文本描述转换为像素信息,生成符合描述的视觉内容。
- 视频生成模型:在图像生成基础上加入时序信息,通过理解文本和动作描述,生成连续的动态画面序列。
- 音频生成模型:通过分析语音特征和声学模型,将文本转换为自然的语音信号或音乐内容。
根据自己想要生成的内容,来选择不同的模型,相比于文本生成,图像和视频的生成可选择的范围较少,并且大多是可以免费体验几次,就需要付费,不过对于C端个人来说,应用于生产的视频、图片场景并不多。
三、文本生成模型
在日常工作中,使用最多的是文本生成,这也是模型厂商比拼最卷的品类。我们有必要对此进一步分类,做更多了解。文本生成从我的理解看,主要分为以下几种:
- 指令型:最初发展的LLM,能够基于用户以自然语言形式提供的显式指令来生成自然语言输出的模型。如:GPT-3、Claude 3.5等
- 推理型:为弥补模型产生的幻觉,和降低用户输入的门槛,在输出前对用户的输入进行思考推理,提高模型的生成质量,通常采用链式思考等技术。如:GPT-o1、DeepSeek R1
- 多模态:能够处理和生成跨越多种模态(文本、图像、音频)内容的模型。如:GPT-4o,豆包。
- 代理型:能够自主做出决策并调用工具以实现复杂目标的AI模型。如:GPT-o3
调用模型有多种方式,在模型厂商提供的对话机器人中或调用模型厂商的API,对于闭源的、最新的、最强的模型,基本都是需要付费的。而开源模型的API通常也是需要付费。
在价格方面,一般指令型和多模态<推理型<代理型。
四、选择LLM的原则
认识了这么多的大模型后,我们依然需要一个清晰的框架来指导如何选择合适的模型。以便在下意识下都能找对AI。
我总结出三个核心原则:选择最新的模型以获得最佳性能,选择最贴合应用场景的模型以实现最优效果,以及选择最方便使用的模型以提高工作效率。
1 用最新的模型
像手机一样,同一系列里最新的一定是最强的, 留意模型的发布时间和版本号,以下是当前几家厂商的最新模型:
2 用最贴合场景的模型
基于个人体验,以下场景建议选择相应的专业模型:
- 代码生成:Claude Sonnet 3.7 > Google Gemini 2.5 Pro > DeepSeek V3
- 文章撰写:Grok 3、GPT-4.1、豆包
- 搜索:Gemini 系列、DeepSeek R1、GPT-O3
- 研究:OpenAI、Gemini、Grok 的 DeepSearch
对于日常场景(如翻译、润色改写、创意生成、图片识别等),选择顺手且熟悉的模型即可,比如豆包、Kimi 都是不错的选择。
3 用最方便的
选择模型时,便利性也是一个重要因素。以下几点值得考虑:
- 访问便捷性:优先选择在你常用平台上可以直接访问的模型,避免频繁。
- 响应速度:对于需要快速反馈的场景,选择响应速度快的模型,如 Claude 3.5 Haiku 或 GPT-4.1 mini。
- 成本效益:考虑模型使用的价格,选择符合预算的方案。
五、在哪里使用?
1 模型厂商平台
直接在模型官方平台使用,如 ChatGPT、Claude、Grok等。
优点是功能最全面、更新最及时;缺点是需要分别注册账号,费用分散。
2 模型聚合应用
在一个平台上使用多个模型,如Monica、 Poe、OpenCat。
优点是便于切换对比不同模型;缺点是可能存在功能限制,且需要自备 API Key。
3 API 调用
在硅基流动、openroute 、火山引擎可以直接调用模型的 API 接口,适合开发者和技术人员。
优点是灵活性最高,可以深度定制;缺点是需要基础编程经验,计费按 token。
4 API + chatbot
把API接入到 cherryStudio、ChatBox这样的对话程序中。
优点是按需配置;缺点是操作成本高。
5 API + 应用将模型API接入到常用的应用中,如Obsidian、沉浸式翻译。
优点是深度集成到现有工作流;缺点是功能相对固定,且费用可能较高。
6 镜像站点
使用第三方搭建的模型镜像站点,如 ChatGPT 、Claude镜像。 优点是无需注册账号即可使用;缺点是安全性和稳定性难以保证。不建议在镜像站点处理敏感信息。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。