一文看遍AI行业大模型

腾讯研究院大模型研究课题组

前言

通用大模型技术快速发展,但很多传统行业推进得并不快。对企业而言,大模型应用需要综合考虑专业性、数据安全、持续迭代和综合成本等多种因素。针对这些现实情况,腾讯集团提出重点发展行业大模型的理念。本文基于一线大量实践反馈,做出系统归纳总结,呈现行业大模型发展真实情况,厘清关键争议和困惑问题。真正解决用户需求、距离场景和数据更近的企业,将拥有大模型的未来。

行业大模型弥合技术与需求差距

1. 大模型引发智能革命

2022年11月30日,OpenAI发布大语言模型(LLM,Large Language Model)ChatGPT,其用户数迅速增长,成为史上发展最快的应用。ChatGPT的爆火揭开了人工智能(AI,Artificial Intelligence)大模型时代的序幕,也预示着AI迈向通用人工智能(AGI, Artificial General Intelligence)的新阶段。目前业界对大模型没有形成明确统一的定义,狭义上可指大语言模型,基于Transformer技术框架;广义上包含了语言、声音、图像、视频等多模态大模型,技术框架也涵盖稳定扩散模型(Stable Diffusion)等。

在大模型出现之前,人工智能通常需要针对特定任务和场景设计专门的算法模型,执行的也是训练数据范围内的单一任务。大模型的突破,关键在于展现出了类人的通用智能“涌现”能力,能够学习多个领域知识、处理多种任务,因此也被称为通用大模型。大模型具备诸多特点。

第一,参数规模大。大模型参数规模远大于传统深度学习模型,呈现规模定律(Scaling Law)特征,即模型性能与模型规模、数据集大小和训练用的计算量之间存在幂律关系,性能随三个因素的指数增加而提高,通俗而言就是大力出奇迹。不过“大”并没有绝对标准。传统模型参数量通常在数万至数亿之间,大模型的参数量则至少在亿级,并已发展到过万亿级。

第二,泛化能力强。大模型能够有效处理多种未见过的数据或新任务。基于注意力机制,通过在大规模、多样化的无标注数据集上进行预训练,大模型能够学习掌握丰富的通用知识和方法,从而在广泛的场景和任务中使用。大模型不需要或者仅需少量特定任务的数据样本,即可显著提高在新任务上的表现能力。

第三,支持多模态。大模型可以实现多种模态数据的高效处理。传统深度学习模型大多只能处理单一数据类型(文本、语音或图像),大模型则可以通过扩展编/解码器、交叉注意力、迁移学习等方式,实现跨模态数据的关联理解、检索和生成。多模态大模型(LMMs,Large Multimodal Models)能够提供更加全面的认知能力和丰富的交互体验,拓宽AI处理复杂任务的应用范围,成为业界探索迈向通用人工智能的重要路径之一。

2. 行业大模型是AI+落地最后一公里

规模定律驱动通用大模型性能不断提升,同时也产生了“不可能三角”问题:专业性、泛化性和经济性三方面很难兼得。

第一,专业性指大模型处理特定领域问题或任务的准确性与效率。专业性要求越高,越需要针对特定领域数据进行训练,可能造成模型过拟合而降低泛化能力。此外,增加的数据收集和训练也会增加成本、降低经济性。

第二,泛化性指大模型处理训练数据集之外新样本的表现能力。大模型泛化性要求越高,越需要多样化的大规模训练数据集、模型参数量也越多,这意味着模型训练和使用成本的增加、经济性降低,同时可能降低模型对特定问题处理的专业能力。

第三,经济性指大模型训练和应用的投入产出比。大模型经济性要求越高,越需要消耗更少的算力资源与成本,满足性能需要,然而降低资源消耗基本上需要采用更小的模型或更少的参数,这又会降低模型的性能表现。通用大模型以发展通识能力为主要目标,更侧重泛化性,在专业性和经济性方面很难充分满足具体行业的特定需求,存在“有幻觉、成本高”等情况。

行业机构采用大模型还有两个关键考量因素:竞争和安全。将数据转化为竞争力是核心驱动。为有效提升竞争力,机构会尽力寻找性能最佳的模型,并利用行业专业数据或私有数据的独特资源,对模型进行定制调整和优化。目前GPT-4等市场头部通用大模型多为闭源,通过网页、APP应用服务大众用户,或以API标准化调用的方式服务开发者,可定制化调整的空间较小。第二,保障安全可控是底线要求。大模型不仅涉及机构私有数据的调用,还会与机构业务、流程结合,这使得大模型使用越深、越需要重视安全可控。通用大模型通常基于公有云提供服务,会造成机构对私有数据、敏感数据安全的担忧。

通用大模型与行业/机构具体需求间存在差距,行业大模型以其诸多优势(见图1),成为弥合差距的必然产物,有效支持各行各业加速落地大模型应用。

一是高性价比,行业大模型能在较小参数量模型基础上,通过相对低成本地再训练或精调,达到较好性能效果。十亿〜百亿级参数量的行业大模型是目前主流选择,相比通用大模型动辄千亿级以上的参数量能明显节省开发成本。

二是可专业定制,行业大模型可基于开源模型开发,能对模型结构、参数等按需调整,更好地适配个性化应用需要。通过模型即服务(MaaS,Model as a Service,见图2)方式,机构可以从平台对接的多种模型中快速选择合适产品,包括厂商已开发的行业大模型初始版本。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值