1. 多模态大模型关键技术分析
多模态大模型研究的焦点主要包括预训练数据收集、基础模型构建、自监督学习与模型优化训练、下游任务微调与迁移学习、大模型并行计算与推理加速。
1.2 预训练数据收集
通常,大模型使用的预训练数据的质量越高,数量越多,会越有利于模型性能的提高。但多模态大模型的训练需要多模态数据,其对数据的要求高于单模态数据,实际中更难去获取质量高、数量多的训练数据。因此需要研究如何以更低代价挖掘和构建不同模态之间对齐的数据。
实际数据中噪音样本非常多,为了获取大规模、高质量的数据来训练大模型,目前一种简单有效的方法是维护一个基础词库对数据做基本的过滤,并在模型和数据更新的过程中不断去扩展这个词库。
但这种基于匹配过滤的方式不够灵活。人在面对具体任务时可以基于知识对有用信息进行过滤,因此业界下一步研究重点会是如何引入知识来对数据进行筛选。
目前应用深度学习技术时通常把数据获取和数据处理两部分分割开来,但从人的认知角度,数据获取和处理过程是分不开的。因此,选择训练数据也是模型应该通过学习而获得的能力。具体地,需要研究数据和模型迭代优化的方式,即用数据优化模型,反过来用模型筛选数据。
1.3 基础模型(Transformer)
大模型具有很强的记忆能力,模型参数与数据规模不断增加也带来了性能的显著提升,但终将会遇到瓶颈,所以需要设计能够更高效计算的网络模型结构,改进甚至是替代 Transformer。大模型效果好除了对大数据有很强的拟合能力,也可以学到隐式的知识,但这和人类理解的常识没有明确的关联。
需要设计更好的模型实现将隐式知识与显式知识的关联,使预测更高效、准确。具体地,研究知识和数据混合驱动的方式,即把显式的知识,比如知识图谱等,嵌入到模型结构中。例如实际中,CNN 每一层的作用都很清楚,知识可以较容易嵌入到各层,而 Transformer 没有 CNN 这么明确的从低到高的语义抽象,该如何嵌入,是下一步的研究方向。
对于多模态预训练,需要设计跟下游任务更好兼容的网络结构模型。具体地,可以引入编解码结构,把多模态理解和生成任务更好地统一到一个框架下,从而更好地支持下游的多模态任务。
1.4 自监督学习与模型优化训练
对于大模型,除了要设计更为合理的模型结构,还要设计更为高效的训练方式。现在的预训练都是基于 Softmax、回归或者对比损失等端到端训练方式。但实际上,人的学习是一个记忆再加上有外界环境或者有老师指导的过程,是一个不断试错和积累的过程。因此,可以研究如何将强化学习机制引入模型自监督学习过程中,把环境反馈引入进来。
另外,对于多模态大模型,需要设计单模态、部分模态和全模态的混合训练方式,降低对多模态对齐数据的要求,同时也能更好利用现有单模态、部分模态开源数据。具体地,可以采用多流多模态编解码结构,其引入多层次多任务的自监督学习,可以支持图文音完全匹配的数据,也可以支持图文部分模态匹配的信息,甚至可以只使用一种模态的信息来进行模型训练。
自然语言处理中大模型取得了很好的效果,而在视觉和多模态里面会有一些不尽人意的地方。这是因为语言本身就是一种语义符号,其语义鸿沟问题并不显著,而对图像、视频等多模态信息来说,从底层特征到高层语义具有天然难以跨越的语义鸿沟。因此针对多模态大模型,需要研究如何有效建模不同模态信息的细粒度语义对齐问题。
1.5 下游任务微调与迁移学习
预训练模型通常需要领域标注数据进行微调来实现具体下游任务,标注数据可以比全监督方式下得更少、但性能可以比原来更好。微调相当于是对大模型里记忆数据的一个检索,即给模型少量的样本来唤醒预训练时加入大量样本形成的知识。因此,高效的微调方法对大模型充分发挥性能至关重要。
另一方面,多模态大模型可以把文本、声音等模态都嵌入到一个特征空间里,这个特征空间的几何形状以及它的距离度量应该符合人对这些知识的认知先验,即两个概念比较近的事物的特征距离应该比较近。如果对各种元素的特征空间都有一个比较好的先验刻画,那么实际中只需要很少的样本就可以帮助模型迁移到下游的很多任务,比如专门领域的分类任务等。
多模态大模型的应用非常丰富,具体地,图文音三模态对应的下游任务,相比图文而言,更为丰富,因为引入了语音,其实就带来了更多可做的事情,例如从语音到图像,或者从语音到视频等。需要探索如何拓展更多的创新下游应用。
1.6 大模型并行计算与推理加速
大模型除了要从数据中有效学习,还要看能否快速学习。需要设计针对超大规模模型的分布式并行训练方法。
在实际应用场景中,需要研究大模型的压缩与推理加速。
目前,大模型可以有如下方式在实际中进行使用:
第一种方式是可以用来清洗数据集,比如可以在无标签的数据集上用超大模型打标签,然后直接训练小模型,这是最直接的一种半监督的使用方式。通常我们会逐级做,用大模型打中模型的伪标签,中模型打小模型的伪标签,一级级训练,从而得到小模型。
第二种方式类似现在 NLP 中非常火的prompt 方法,它跟蒸馏其实非常像,相当于预先找到了一个最佳的特征,你可以让小模型向这个特征空间靠,把特征对齐就可以了。第三种方法就是化简,比如用传统的模型剪枝等策略,研究如何直接把超大模型化简到实际业务可用的复杂度规模。
2 多模态大模型产业分析
当前,由人工智能技术引发的产业变革正在加速演进,已然跃升成为世界科技竞争的制高点。自 2017 年国务院印发《新一代人工智能发展规划》之后,中国人工智能产业化势头迅猛,各行各业结合人工智能技术打造的产业新应用、新业态、新模式不断涌现,发展态势良好,具有广阔前景。
从单点突破到协同发展,中国人工智能发展格局日益清晰;从单模态到多模态,大模型人工智能成为发展新范式;从人工智能与行业复合,到人工智能与生物、制药、材料等科学融合(AI for Science)等趋势日趋明显。
人工智能已成为世界各国的竞争焦点,各国都意图抢先占领技术制高点。一方面,由于各领域复杂度、数据总量和智能技术应用需求不断增长,智能形态和水平持续深入,从互联网到移动互联网再到物联网时代计算硬件的体积、功耗、成本越来越低,人工智能已经成为共性支撑技术,推动经济、社会、国防等领域发展。另一方面,伴随大数据、计算能力、学习算法的突破和人类智能本质探索的深入,人工智能发展正在加速。
随着 GPT/Bert、GPT-3、DALL-E-E 等大规模预训练模型的快速涌现,人工智能研究领域正在经历一场从有监督学习向无监督学习条件下“大数据+大模型”的大规模预训练范式转变,2018 年 BERT 在 11项 NLP 任务上都取得了巨大成功。标志着大模型时代的开始。当下NLP 领域几乎所有的同期最好模型都是少数几个基于 Transformer 的大模型架构进化而来,这种趋势正在向图像、视频、语音等不同模态不同领域扩散蔓延。
在政策和技术的双轮驱动下,中国人工智能产业规模高速增长,2020 年中国人工智能产业规模为 3031 亿元人民币,同比增长 15%,增速超过全球水平。2020 年,中国人工智能市场规模占全球比例接近 30%,较 2019 年(12%)有显著提升,展现出强劲的扩张势头和增长空间。中国人工智能在创新应用方面继续保持良好发展态势。
2.1 人工智能创新不断,“一体两翼”快速发展
作为高度交叉复合、快速发展的领域,人工智能近年来技术创新不断涌现,形成了“一体两翼”快速发展的格局。
其中“一翼”是指人工智能的基础理论。人工智能快速进步发展无疑受益于大数据和大算力发展,但理论基础还是源于 15 年前深度学习方法的突破。随着人工智能技术持续发展,其计算、生物、数学、材料、心理学和社会学等交叉复合特性就越明显。
中国人工智能论文发表数量已经位居世界第一,论文总被引次数位于世界第二 1,人工智能基础研究发展态势良好,已经成为人工智能基础研究大国。但要成为人工智能基础研究强国,还需要在需求牵引下,按照问题导向继续弘扬“十年磨一剑”的科学家专注精神。
另外“一翼”指人工智能应用。人工智能具有无所不在的广阔应用场景,技术落地需要和工业制造、农业发展、医疗制药、社会治理、能源管理等领域深度结合。依据中国市场、人才、规模、数据等方面的优势,人工智能对各行业的渗透深度和广度前所未有,产业发展具有独一无二的先天条件,紧抓机遇,推动中国人工智能产业步入规模化应用新阶段势在必行。
人工智能中间非常关键的“一体”,指人工智能的基础软硬件,包括芯片、板卡、算子库、工具链、计算编程模型、AI 框架、硬件适配训练套件和 AI 算法工具包等。基础软硬件已经成为人工智能基础研究成果和场景应用广泛结合的重要桥梁。目前,中国基础软硬件研发已经从“不可用”走到基本“可用”的阶段,初步形成可控的人工智能基础软硬件生态。
2.2 多模态大模型人工智能成为发展新范式
人工智能已广泛渗透入社会经济生产活动的主要环节,但仍然处于商业落地早期。研发流程虽然相通,但研发的模型却难以复用,工作模式类似重复“造轮子”,人力成本与时间成本较大。行业数据隐私安全要求高,行业(如医疗领域)数据获取困难,难以大规模收集并用于训练人工智能模型;行业间与行业内数据的联通与整合机制仍有待完善,数据来源繁杂、质量参差不齐,行业内上下游机构的产业数据标准不统一。
大部分人工智能项目落地还停留在“手工作坊”阶段,即针对特定任务设计专用模型的阶段。
这几年兴起的人工智能大模型技术(如 BERT、GPT-3、国内的语言大模型“悟道 1.0”以及“紫东太初”多模态大模型等),在场景泛化性、对数据依赖性等方面都产生了很大的技术突破。大模型通过自监督方法对海量无标注数据进行学习,同时面向特定任务场景进行小数据标注学习和微调,就能达到原有大数据标注的性能。
从现有技术发展看,大模型能对数据标注依赖降低 1 个数量级以上。另外多模态大模型还能更好地抽象人类处理现实问题的手段,提供了解决诸如医学影像诊疗这种单模态学习难以处理的问题,为未来更大范围应用奠定了基础。多模态大模型加持下的人工智能平台逐渐发展成为一种新范式。
预计通过加大力度对其进行推进,在 3-5 年内大模型有望把人工智能众多方向加以融合发展,逐渐成熟,可落地应用服务于产业实体经济和国民经济主战场。
2.3 从谋求模型与数据规模的“极致”,向场景化实用化发展
目前模型规模达到十万亿,是否继续部署百万亿、千万亿规模的模型受到质疑。相关研发机构已经开始尝试构建百万亿规模的模型,但只是单纯在现有基础上进行扩大,并且发现 ROI(投资回报率)比较低。相比较,算法或者应用方面的成果能不能跟上目前模型的规模更加值得探究。
模型参数与数据规模不再是各研发机构的比拼重点,产业进入场景应用新阶段。目前面向多模态大模型已经有了较多的技术研究,但它对整个产业生态的作用还缺少深入探索。如果多模态大模型不能实用化、商业化,其难以得到持续发展。
大模型部署效率提升成为应用落地的关键突破点。部署的 10 万亿参数的大模型,相比人脑的 1000 万亿还是至少少了两个数量级,但体积和耗能跟人脑比起来,还是多很多的。目前这方面有一些进展,比如说光芯片或者生物芯片,但代价和研发成本还比较高,对底层硬件进行研究还有广阔的空间。
2.4 多模态大模型成为人工智能基础设施,模型研发从“手工作坊”迈入工业化生产时代
AI 行业落地难,碎片化严重,模型研发仍处于“手工作坊”阶段。
人工智能正处于从“可以用”逐渐走向“好用”的落地应用阶段,但目前仍处于商业落地早期,主要面临着场景需求碎片化、人力研发和应用计算成本高、模型算法从实验室场景到真实场景效果差距大等行业痛点。
大部分 AI 项目落地还停留在“手工作坊”阶段,要实现AI 模型落地全流程,需要包括确定需求、数据收集、模型算法设计、训练调优、应用部署和运营维护等阶段。这需要 AI 研发人员扎实的专业知识和协同合作能力。
预训练模型高速发展,视觉、语言、语音等领域大模型在持续涌现。
目前网络数据中 90%以上是图像与视频,如何设计计算机模型并使其具有强大的无监督学习与通用知识迁移能力,使不同领域任务在统一框架下实现基于低标注代价的性能提升?一种可行的路径是通过跨模态语义关联,提升多模态融合理解以及跨模态转换与生成性能。
近期比较有影响力的 DALL-E 和 CLIP,前者是用于给定模板化文本输入的图像生成,而后者用于图像特征表示。上述工作虽然验证了基于大规模预训练模型的多模态理解技术路线的可行性,但主要是基于英文的单一模态和两模态预训练模型,面向中文数据的多模态预训练模型仍然比较少,同时多模态预训练模型的小型化技术研究还很少。
多模态大模型实现图文音统一知识表示,成为人工智能基础设施。
人工智能包含三个层次:基础层、技术层和应用层。基础层通常涵盖硬件、算法和海量数据三部分;技术层包括计算机视觉、语音、自然语言处理等技术;应用层主要是人工智能产品、服务和解决方案,适用于无人驾驶、智能家居、智慧金融、工业机器人、水下机器人、智慧医疗等多个领域。作为人工智能基础层算法的重要组成部分,多模态大模型及相应智能算法由于实现图文音统一知识表示,正成为人工智能基础设施。
“多模态+大模型+多任务”的统一学习,实现模型研发的工业化。
自动化所团队提出的视觉-文本-语音三模态预训练模型采用分别基于词条级别(Token-level)、模态级别(Modality-level)以及样本级别(Sample-level)的多层次、多任务子监督学习框架,更关注图-文- 音三模态数据之间的关联特性以及跨模态转换问题。
该模型不仅可实现跨模态理解(比如图像识别、语音识别等任务),也能完成跨模态生成(比如从文本生成图像、图像生成文本、语音生成图像等任务)。以多模态大模型为核心的通用人工智能平台上,可以让 AI 模型研发从“手工作坊”式模式走向工业化协同式高效开发的新范式,从而大大降低模型研发边际成本,提升模型的生产效率。
多模态大模型有望解决长尾问题,解决碎片化应用问题。
为了应对长尾效应这种挑战性问题,通用多模态大模型的快速发展有望通过预训练大模型+推理部署端小模型的技术路线解决该挑战。具体来说,对于计算和存储资源受限的场景,通过知识蒸馏、网络结构裁剪等模型轻量化方法将多模态大模型压缩出侧重不同功能属性的海量小模型,根据实际需求并结合小模型的模块化集成组装,可以大大降低模型算法研发的边际成本。
AI 新的基础设施,推动低代码人工智能解决方案的增长。
早期AI 落地的项目侧重于定制化,人力需求大,长尾需求技术方案导致人效低。作为 AI 新基础设施的多模态预训练大模型成为降低人员研发边际成本的关键。基于多模态预训练大模型这一 AI 基础设施,也能够推动低代码人工智能解决方案的增长,主要体现在多模型预训练大模型可以解决传统 AI 模型难以泛化和复制的难题,基于大模型可以形成模型预训练、参数微调、应用部署和迭代优化的功能,形成更快的完整链条闭环,大幅提升 AI 模型的开发效率,降低面向不同项目需要不同定制化开发的代码编程量。
大模型开放的模式,将加速小模型规模化落地。
大模型开放开源有利于建立开源社区和生态,汇聚一批互利互助的社区成员,吸引优秀的研发人员群策群力不断完善代码,提升大模型的质量。随着龙头研究机构或公司对各领域大模型的开放开源,绝大部分个人或单位虽然缺乏强大算力和海量数据支撑,但是他们对场景和行业需求理解更深,借助开放的大模型,能够对实际问题采用模型小型化的技术路线去解决,加速小模型规模化落地。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。