前几天受邀做了个AI讲座,乘此机会梳理了今年LLM的一些发展,特别是垂类模型的一些技术趋势和我们的实践,供大家参考。
年初在《企业大模型应用策略》一文中分析了大模型的能力特征,并阐述了由于其思维能力的不足,RAG(检索增强)+微调垂类模型成了大模型行业应用范式。
9月,OpenAI发布专用于推理的模型o1,像人一样在回答一个问题前花更多的时间思考,通过强化学习,改进思维链运用策略并修正错误。多项数学、科研等任务上相对GPT 4o大大提升[1]。
上海交大一个团队试图复现o1,如下图,其实现过程是一个多分支循环结构,各种技术综合应用,反复优化提升,相当耗时。
需要指出的是在OpenAI的定义中,o1和GPT系列不同,是全新模型。本质上,擅长于知识汇聚、语言能力的LLM在思维能力上难以突破,用专门模型来应对是合理选择。
去年底我们的明眸语言模型(MILM)中标某行业大模型及典型示范应用项目,在实际应用中,我们在模型微调基础上综合应用了各种知识存储方法、检索方法和专用算法模块,达到较好的效果。
在此项目中,我们结合数字人及虚拟渲染技术,实现了交互式LLM应用场景。语音交互+数字人+LLM能覆盖很多需求。此类应用中,交互延时非常重要,人类交互时延约为232ms,语言识别+LLM处理+语音生成需接近这一指标。随着GPT4,GPT4o(“o” for “omni”)的发布,LLM快速进入MLLM(多模态大语言模型)时代,而行业模型也需具备多模态处理能力。端到端构建模型和训练成为行业MLLM的一种新的趋势,这样可以有效降低全流程多模态交互时延,满足应用需求,典型如下图[3]。
有人提出MLLM的摩尔定律,如下图,随着技术的发展,达到同等能力的模型规模越来越小,而随着终端算力的提升,端侧大模型部署将成为现实[4]。这显然非常有利于行业模型的推广应用。
在垂类大模型训练上,也有一些新的技术趋势。对ChatGPT成功至关重要的基于人类反馈强化学习(RLHF)有了替代方案。人们提出直接用人类反馈的偏好数据优化模型的方法,这样省去了生成奖励模型(Reward Model)和强化学习的过程,降低了训练资源消耗[5],这在行业模型中显然非常重要。
一段时间内很多模型的训练数据依赖于ChatGPT等优秀商用模型,或者借助于商用模型进行数据清洗和优化,显然这不符合很多商用模型的使用条款,也受到模型API调用能力的限制。基于开源模型的学习[6]可以成为一种替代方案。
在行业模型微调中,LoRA[7]一直占据重要地位,特别适合在资源受限的环境下快速开发和部署针对特定垂直领域的大语言模型应用。使用LoRA,通常只需全量微调参数量的 0.1%-1%即可适应新任务,同时灵活性强,可以针对不同领域训练不同的LoRA,并快速切换,因此LoRA已经成为大模型领域任务微调的主流方法。针对多种场景任务或数据微调的LoRA一起使用,即Multi-LoRA[8],对于同时适配更多场景,降低部署成本,提高推理性能非常重要,如下图,一个显卡中运行一个基础LLM和多个LoRA。
索贝MILM模型34B版本,通过Multi-LoRA优化后,在一块48G显存的A6000上可并行运行4个模型,提升两倍多的吞吐量。
vLLM是当前最具影响力的LLM推理开源项目,在Github获得了高达25.5k的订阅关注。通过vLLM部署的大语言模型可以轻易获得数十倍于huggingface transformers (HF)的吞吐量提升,即便是对比huggingface推出的生成推理引擎TGI,同样可以获得2-2.5倍的提升。
索贝媒体智能实验室(MIL)的李杰同学基于Triton重构了vLLM的Multi-LoRA算子,彻底解决vLLM社区的Multi-LoRA问题, 成为0.5.4发版的一个highlight,同时,Multi-LoRA也正式成为vLLM的一个产品特性。
总而言之,大语言模型技术仍然快速演进,为各种场景适配的行业模型发展打下坚实基础,可以预计各种应用将快速集成MLLM,语言模型将无处不在,成为各种行业应用不可或缺的一部分。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。