小模型定义
小语言模型(Small Language Model,SLM)又被称作专业大模型(Specific Language Model,SLM),
是指相对于大型语言模型而言,规模较小、参数数量较少,但在特定任务上表现出色的模型。
-
• 从参数数量上来看
大模型通常指具有百万级、千万级甚至亿级参数的神经网络模型,如:GPT-3 为 175B、ERNIE 4.0 (百度) 为 100B 等。
小模型相对于大模型参数数量较少,如:MobileLLM 为 125M、 Phi-3 为 3.8B 等。
-
• 从训练数据量来看
大模型需要大量的训练数据来避免过拟合,ChatGPT-4需要大约13万亿tokens的训练数据。
小模型由于参数较少,需要的训练数据量也相对较少,Phi-3的训练数据仅为3.3万亿tokens。
-
• 从计算资源需求来看
大模型需要大量的计算资源,如高性能GPU或TPU。小模型计算资源需求较低,可以在普通的CPU上运行,适合在资源受限的环境中使用。
此外,小模型的部署相对简单,适合在各种设备上运行,包括移动设备、嵌入式系统和物联网设备。
-
• 从应用场景来看
大模型通常用于需要高精度和复杂决策的任务,如自然语言处理、图像识别、复杂的游戏AI等。
小模型更适合实时应用、资源受限的环境或简单任务,如移动设备上的语音识别、智能家居控制、简单的预测任务等。
小模型的发展现状
国际巨头深耕通用模型,中国企业聚焦多元垂直应用
像微软和Google这样的美国科技巨头专注于提升模型的通用性,致力于通用人工智能的发展路径,鼓励开发能够覆盖更多场景的通用模型。
国外科技巨头拥有强大的算力和数据资源,可以承担通用模型开发的高成本,同时通过多领域应用收回投入。
我国的小模型在垂直领域的发展呈现出多元化的态势。
除了以百度、阿里、华为、腾讯等巨头厂商深耕通用基础大模型研发,更多的企业则根据自身产业生态的特点,开发专业化的垂直领域小模型。
国内以中小企业为主体,它们更倾向于使用低成本、高效率的垂直小模型,符合我国企业的“成本效益”策略。
国内政策强调技术与实体经济的结合,支持行业定制化发展,为垂直小模型提供了良好环境。
小模型目前的表现逐渐改善,然而距离大模型依然会有差距
得益于最新的LLM pruning(剪枝)和Knowledge distillation(知识蒸馏)技术,SLM目前的表现逐渐改善,然而距离LLM依然会有差距。
小模型体型虽小但功能强大
下图是微软Phi-3系列模型与其他小模型质量与规模的对比图。
横轴表示模型参数的大小(以活动参数的亿级为单位),纵轴表示模型质量(根据“MassiveMultitaskLanguageUnderstanding”基准测试的分数)。
可以发现,Phi-3mini-4k和Phi-3mini-128k在较小参数情况下,性能已与Llama3-8B相当,甚至超过了一些7-8B的模型,如Mistral和Gemma。
小模型的优势
拥有巨大的成本优势
以GPT-4omini为例,其输入成本为0.15美元/百万Tokens,输出成本为0.6美元/百万Tokens,显著低于GPT-4o的输入成本2.5美元/百万Tokens和输出成本10美元/百万Tokens。
尽管小模型的成本优势明显,但在模型能力上的表现与大模型相比差距并不大。
图2是根据OpenAI的行业基准测试,比较了GPT-4omini与一些大模型的表现。
结果显示,GPT-4omini在MMLU(大规模多任务语言理解)基准测试中的得分为82%,虽然低于GPT-4o的88.7%,但超过了77.9%的GeminiFlash、73.8%的Claude3Haiku和69.8%的GPT-3.5Turbo。
同时,GPT-4omini在MGSM(多语言小学数学数据基准测试)和HumanEval(代码生成任务测试)中的得分分别为87%和87.2%,也均高于GeminiFlash和ClaudeHaiku,但略低于GPT-4o。
指令微调以满足定制需求
大语言模型(LLM)适合需要编排涉及高级推理、数据分析和上下文理解的复杂任务的应用程序,意味着依赖其开发人员进行更新。
而小语言模型(SLM)能够很好地执行简单的任务,用户可以在自己的服务器上运行它们,根据需求对其进行指令微调,拥有更多控制权。
例如,微软推出Phi-3系列小模型,使组织能够进行微调,自定义和扩展AI应用程序。Phi-3-mini和Phi-3-medium模型现在支持无服务器微调,开发人员可以快速定制模型以适应云端和边缘场景,无需额外的计算资源。
表5显示了Phi-3系列小模型在指令遵循和结构化输出方面做了显著的改进。结果表明,Phi-3在更新后,指令遵循能力有所提升,其在各种应用场景中的表现也有所改善。
端侧搭配使用
小模型关键创新之一是它能够在较小的设备(如手机、电脑、或其他移动设备、嵌入式系统等资源受限设备)上高效运行,而无需连接到云。
这些设备的计算资源(如AI算力、内存等)相对有限,同时对端侧的能耗、发热等问题有着更为严格的要求。
因此,小模型经过特别设计,以减小模型大小和优化模型架构,从而能够在端侧设备上高效运行。
以AppleIntelligence为例,这是苹果公司2024年推出的一款生成式AI小模型,它可以内置于iPhone、iPad和Mac等设备中,帮助用户完成写作、图像处理等任务。
更低的延迟
小模型更小,可以更快地处理请求,从而改善实时应用程序中的用户体验。
例如,IBMGranite3.0版本推出的两款小模型:Granite3.03B-A800M和Granite3.01B-A400M,使用了“专家混合模型”(MixtureofExperts)。
这意味着模型仅在推理时激活部分参数(分别为800M和400M)来提高推理效率,减少计算资源的使用,适用于低延迟的应用场景。
具体来看,Granite3.01B-A400M和Granite3.03B-A800M的总参数计数分别为10亿和30亿,而它们在推理时的活动参数计数对于1B模型为4亿,对于3B模型为8亿。
这使得这两个SLM都可以在提供高推理性能的同时最大限度地减少延迟。
小模型的应用案例
通用领域小模型Phi-3-Mini:语言理解和生成
Phi-3-Mini是微软推出的一款轻量级的语言模型,专为低资源、高效率、通用领域的任务而设计。Phi-3-Mini拥有3.8亿参数和3.3Ttokens的训练数据,在语言理解和生成中表现出色,能够与GPT-3.5媲美。
根据学术基准和内部测试的评估,Phi-3-Mini在自然语言理解和推理中的表现超越7-8B参数的Mixtral、Gemma和Llama-3-In,显示出其出色的文本理解能力。
通用领域小模型 OpenELM:私有使用
OpenELM是苹果团队发布的一款通用小模型,包含了2.7亿、4.5亿、11亿和30亿四个参数版本。这款产品专为终端设备设计,聚焦隐私保护和数据安全,弥补了以往大规模语言模型(LLM)产品在这些领域的短板。
下表显示了OpenELM与其他规模相近模型在平均准确率上的对比结果。与OLMo相比,OpenELM的准确率提升了2.36%,同时预训练所需的标记数量减少了一半。
垂直领域小模型智海·三乐:智能教学
智海·三乐(wisdomBot)是由浙江大学等单位设计研发的一款面向专业领域教育模型。
该模型以通义千问Qwen-7B为技术基座,基于核心教材、领域论文和学位论文等教科书级高质量语料和专业指令数据集继续预训练和微调,集成了搜索引擎、计算引擎和本地知识库等功能。
目前,智海-三乐已通过阿里云灵积平台(DashScope)对外提供API服务。
使用C-Eval4对其进行教学评测。结果显示,与通义千文7B相比,经过训练后的智海·三乐在各项教育相关任务中的表现得到了显著提升,展现出卓越的教学辅助能力。
垂直领域小模型 DeepSeek-Coder-V2-Lite:代码智能
DeepSeek-Coder-V2-Lite是DeepSeek推出的一款专门、用于编程语言处理、代码生成任务的小语言模型,参数规模为16B。
首先,DeepSeek-Coder-V2-Lite支持广泛的编程语言,它包含的编程语言从86种增加至338种,几乎囊括所有主流编程语言。
其次,它能够处理更长、更复杂的代码片段。它的上下文长度从16k扩展到128k,能够更好地理解项目结构和上下文关系。
此外,该模型完全开源,科研人员可深入研究模型架构和训练方法,开发者可自由使用和定制模型,企业可基于DeepSeek-Coder-V2打造专属代码智能应用。
在编程基准评估中,DeepSeek-Coder-V2表现优异。
结果显示,在HumanEval基准测试中,DeepSeek-Coder-V2取得了90.2的高分,超越了所有竞争对手。
而在MBPP+和Aider基准测试中也超越了GPT4-Turbo、Claude-3-Opus和Gemini-1.5-Pro等闭源模型。
垂直领域小模型 XuanYuan-6B:金融咨询
XuanYuan-6B是度小满轩辕系列发布的一款金融小模型。
XuanYuan-6B模型尺寸较小,包含量化版本,降低了对硬件的要求,具备更广泛的适用性。
XuanYuan-6B结合Self-QA方法构建高质量问答数据,采用混合训练方式进行监督微调,使其能够有效地应对各种复杂的问答和推理任务。
下图是对XuanYuan-6B-Chat模型进行人工评估,来评测它在对话场景中的真实能力。
评估对比对象为业界开源的类似尺寸的主流大模型,采用GSB(Good,Same,Bad)指标来展示评估结果。
结果表明,XuanYuan-6B-Chat在通用性和金融能力方面的表现均优于对比对象,显示出更强的模型能力。
中国小模型的优势
在专业领域中的表现超越国外通用模型
以度小满的XuanYuan-6B为例,将模型在金融自动评测集FinanceIQ测试集上进行测试。
FinanceIQ涵盖了注册会计师(CPA)、税务师、经济师、银行从业资格、基金从业资格、证券从业资格、期货从业资格、保险从业资格(CICE)、理财规划师等十大权威金融领域考试。
结果显示,XuanYuan-6B在该项评测任务上超过GPT-4的水平,在知识层面展示出金融领域专家的水平。
综合能力大幅提升
将Xuyuan-6B与LLaMA2系列模型的通用能力进行比较。
数据显示,Xuyuan-6B不仅具备很强的金融能力,其通用能力在知识、逻辑、代码等通用能力上的表现优异,甚至可比肩更大尺寸的模型,评测结果。
MiniCPM3.0是北京面壁智能科技有限责任公司推出的一款4B参数规模为的小语言模型,它提供了更全面的功能,整体能力得到了显著提升。
MiniCPM3.0体积虽小,但通用能力表现卓越。表15是MiniCPM3.0与Gemma2在通用能力的评测比较。
结果显示MiniCPM3.0在中英文文本处理能力和数学能力方面表现优异,且MiniCPM3-4B理论上支持处理无限上下文长度,其基准测试表现可与GPT-3.5-Turbo和Phi-3.5-mini相媲美。
基于 VisCPM 的多语言训练方法,MiniCPM-Llama3-V 2.5 将其多模态能力扩展到 30 多种语言。
如下图所示,MiniCPM Llama3-V 2.5 可以在多语言基准测试 LLaVA Bench8上胜过 Yi-VL 34B 和 Phi-3-vision-128k-instruct。
具有技术创新性
DeepSeek Coder-V2在代码生成、编程语言处理以及数学推理等基准测试中超越了国外100B参数的GPT4-Turbo等通用大模型,展现了我国小语言模型的技术创新力。
小模型面临的挑战及解决方案
处理复杂任务能力有限
小语言模型由于参数较少,往往在处理需要深入理解上下文、生成流畅多样的文本或应对复杂语言模式的任务时表现出较大局限性。
为了提高小模型完成复杂任务的能力,一是适当增加模型的参数量,提高其学习能力和表达能力,使其能更好地捕捉复杂的语言模式和深层语义。
二是提升数据集的多样性和质量,确保包含更丰富的语言样本,帮助模型更好地应对专业任务。
三是通过迁移学习的方式,将SLM应用于特定任务时,先通过大模型进行预训练,再在特定任务上进行微调,从而提高其针对性和精度。
数据质量依赖性
小语言模型的性能高度依赖于其训练数据的质量。较小的训练数据集通常不足以覆盖任务的多样性或复杂性,容易受到数据中的偏差影响。
如果训练数据中存在偏差或不平衡,SLM可能会在特定场景下表现出较低的泛化能力,甚至产生不准确的预测或生成内容。
因此,要确保训练数据的质量。一是在数据清洗时要进行去噪处理,通过去除重复项、纠正标注错误等方式来提高数据质量。
二是数据补充,结合外部的知识库,弥补数据中存在的不足,增强模型的泛化能力。
此外,通过知识蒸馏(KnowledgeDistillation)技术,将大模型的知识迁移到小模型上,提高其能力。
使用局限性
小语言模型通常是为特定领域或任务设计的,这些模型的知识库相对有限,无法应对跨领域的复杂问题,因此它们在处理多领域任务时存在一定的局限性。
为了解决小模型使用局限性的问题,一是模块化设计,将小语言模型设计为可扩展的模块系统,可以通过引入专门的插件或外部知识库,扩充其对不同主题的处理能力。
二是多模型集成,通过将多个小语言模型进行集成,形成一个组合型的系统,充分发挥每个模型在特定领域的优势。
一、大模型风口已至:月薪30K+的AI岗正在批量诞生
2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
二、如何学习大模型 AI ?
🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
* 大模型 AI 能干什么?
* 大模型是怎样获得「智能」的?
* 用好 AI 的核心心法
* 大模型应用业务架构
* 大模型应用技术架构
* 代码示例:向 GPT-3.5 灌入新知识
* 提示工程的意义和核心思想
* Prompt 典型构成
* 指令调优方法论
* 思维链和思维树
* Prompt 攻击和防范
* …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
* 为什么要做 RAG
* 搭建一个简单的 ChatPDF
* 检索的基础概念
* 什么是向量表示(Embeddings)
* 向量数据库与向量检索
* 基于向量检索的 RAG
* 搭建 RAG 系统的扩展知识
* 混合检索与 RAG-Fusion 简介
* 向量模型本地部署
* …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
* 为什么要做 RAG
* 什么是模型
* 什么是模型训练
* 求解器 & 损失函数简介
* 小实验2:手写一个简单的神经网络并训练它
* 什么是训练/预训练/微调/轻量化微调
* Transformer结构简介
* 轻量化微调
* 实验数据集的构建
* …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
* 硬件选型
* 带你了解全球大模型
* 使用国产大模型服务
* 搭建 OpenAI 代理
* 热身:基于阿里云 PAI 部署 Stable Diffusion
* 在本地计算机运行大模型
* 大模型的私有化部署
* 基于 vLLM 部署大模型
* 案例:如何优雅地在阿里云私有部署开源大模型
* 部署一套开源 LLM 项目
* 内容安全
* 互联网信息服务算法备案
* …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】