【栏目:工程系统】从2018年谷歌提出BERT预训练语言模型至今,作为深度学习领域的集大成者,超大规模预训练模型(简称:“大模型”)仅仅走过了三年的发展历程。
大模型技术不仅是学术界重点投入的领域,产业领域也在期待其能够在各个场景加速落地。大模型不仅能够提升应用服务的智能水平,甚至还有望催生新的场景和产业模式。
本文主要分析目前大模型适合落地的场景和应用模式,并展望未来的产业发展态势,以期为读者带来一些思考。
撰文:戴一鸣
责编:贾 伟
李静云、张大魁等亦对本文有贡献
01
大模型技术发展情况
超大规模预训练模型是采用超大参数规模(超过亿级别),依赖强大算力,在海量数据上进行预训练的AI模型。预训练后的大模型具有较为通用的能力,可以通过微调,甚至不微调,而在细分任务上超越以往单一领域专用AI模型性能。
目前,在这一领域已诞生大量的模型,主要集中在自然语言处理领域,其中有谷歌提出的BERT、T5等,FaceBook提出的RoBERTa等,OpenAI提出的GPT-3等,参数规模在数十亿到千亿不等。在多模态任务领域,近年来也诞生了一批值得关注的模型,如OpenAI在今年1月提出的DALL·E等。
我国在大模型领域也取得了许多成就,知名模型包括清华大学等提出的ERNIE、百度的ERNIE2.0、阿里提出的PLUG等、华为云等提出的盘古NLP,以及智源研究院研发的悟道1.0、悟道2.0模型。大模型技术目前呈现百花齐放、百家争鸣的发展格局。
研发更大、更通用的模型,对于科研机构和企业都是沉重的负担,例如GPT-3模型的训练成本就超过了1200万美元,OpenAI和微软更是斥巨资打造专用AI超算支撑研发工作。大模型“烧钱”是业界的普遍共识,这也驱动研发机构加快商业变现步伐。而下游场景的企业也急需要能够降低AI研发成本,进一步提升AI能力的强大技术。大模型不再是机构“秀肌肉”的玩具,而是真正成为智能应用和服务的基础技术,推动产业智能化发展。
02
产业落地情况
当前全球大模型商业落地仍处于早期探索阶段。
一方面,研发机构熟悉大模型基本技术,但缺乏有效落地场景,需要与下游场景企业合作建立大模型商业模式;
另一方面,绝大多数下游场景的企业没有足够的算力和开发资源定制/微调大模型。
这造成了一种基于API而非开源模型的产业格局:大模型是否开源本身并不关键,研发机构只需要开放满足应用需求的API,由企业提供反馈,将模型融入企业本身的业务环节中。
目前大模型领域商业落地较为成功的案例是GPT-3。在OpenAI在公开GPT-3论文后,也同时开放了模型的API申请通道,鼓励研究者、开发者、企业从业者研究“好玩”的GPT-3应用,以此促动大模型的产业场景发展。
在开源社区培养了一批GPT-3的开发和用户人群后,OpenAI对外开放API商业运营计划,让GPT-3成为营收来源,据OpenAI统计,截至今年3月,全球已有300多个APP使用了GPT-3的技术,全球开发者数量上万,模型每天生成45亿个词汇,而且数量还在不断增长。
仅开放商业API或许还不能满足OpenAI的盈利需求,面对微软10亿美元的投资,OpenAI也“投桃报李”,将GPT-3模型优先使用授权打包奉上,微软可以自由微调。
在数据分析领域,大模型能够根据数据科学家的需求自动生成分析检索代码,降低了数据分析的技术门槛,使企业业务人员直接进行大型分析和决策。如微软的Microsoft Power App数据分析平台中就集成了GPT-3模型。
图注:GPT-3能够在微软数据分析平台中根据自然语言指令生成对应的代码,加快数据检索效率
03
产业模式
目前主要有两种大模型产业落地模式,一是将大模型作为智能系统中的一个组成部分,二是直接基于大模型形成产业体系。
集成于已有智能系统中,实现降本增效
企业在获得大模型时,首先考虑的是将模型集成于已有的产品或服务中,通过提升某一个环节的智能能力,实现整体系统的效率提升,降低成本。例如,原本生产体系中需要人力投入的环节,可由大模型代替或辅助。
围绕大模型形成独立的产业体系
更重要的是,大模型也可脱离已有的智能产业独立发展。未来将可能围绕大模型建立独立的产业体系,形成智能能力(简称“智力”)的生产和消费模式。
正如智源研究院理事长张宏江所言:“如果将 AI 比作电力,那么大模型则相当于「发电机」,能将智能在更大的规模和范围普及。”
大模型的智能能力在未来将成为一种公共基础资源,像电力或自来水一样随取随用。
每个智能终端、每个APP,每个智能服务平台,都可以像接入电网一样,接入由IT基础设施组成的“智力”网络(俗称“智网”),让智能能力完成日常中方方面面的任务,帮助人类从枯燥重复的工作中解放出来,实现生产力的发展。
图注:电网和“智网”的类比
基于大模型形成的大规模智能网络和云计算完全不同。云计算尽管也将算力比作随取随用的资源,但目前仍然做不到像电力一样的方便取用。这是因为云计算本质上需要云和用户进行双向的资源交换,用户需要经过繁琐的数据准备、计算过程定义等过程,将数据和算法转移到云端,再由云端完成任务后传回本地。
而基于大模型的“智网”则不需要用户定义计算过程,只需要准备好数据,大模型强大的能力能够在少量微调(few-shot)甚至不微调(zero-shot)的情况下直接完成用户所需的工作,就像是家用电器只需要电力驱动电机,具体用途则由电器本身的属性定义,实现“动力”和“用途”的隔离。
这一智能能力生产和消费的网络,未来或将成为人类社会产业发展的主流模式。
04
常见落地领域
预训练语言模型
尽管GPT-3的案例说明,大模型的应用前景非常惊人,但是对于模型适合落地的应用场景和领域,目前产业界并没有定论。对于不同类型的大模型,其产业落地的进程有所区别。
对于BERT、GPT-3等预训练语言模型,其在对话、文本改写补全、风格变换、文本生成等任务上具有明显优势,因此适合许多文字相关的场景,如媒体、社交、营销、教育等领域。此外,大模型普遍采用Transformer技术架构,适合处理各类时序数据,因此也可以扩展到代码补全等场景。
据gpt3demo(一个收录GPT-3应用的网站)统计,目前GPT-3的衍生应用已有180多个,其中主要包括文本类应用,如办公、新闻、博客、电邮等场景的写作应用;代码开发辅助工具,如自动代码补全、低代码应用等;营销领域,如广告生成、客服机器人、推荐等;以及文娱等,如作曲、游戏应用等。
图注:gpt3demo网站收录的模型应用(部分)
多模态预训练模型
多模态模型由于学习了图-文等数据,因此相比语言模型在更复杂场景具有应用优势,特别是需要创意生成的领域,如艺术设计、广告等。例如,DALL·E模型能够根据文本指令,生成对应的图像,产生很多人类想不到的奇思妙想。
如果日后模型具有学习视频、音频等数据的能力,其在文化娱乐产业的应用水平将进一步提升。
图注:DALL·E生成的“牛油果形状的椅子”
多任务统一模型
面向未来产业界更为复杂的智能决策场景,基于多种网络数据预训练,具有决策能力的大模型可能是下一步发展的重点。例如,谷歌在今年的IO大会上公开了MUM(多任务统一模型:Mutitask Unified Model)的发展情况。
据谷歌透露,MUM模型能够理解75种语言,并预训练了大量的网页数据,擅长理解和解答复杂的决策问题,并能够从跨语言多模态网页数据中寻找信息。
谷歌展示了MUM模型通过用户英文提问搜索日文信息源,并提供旅行攻略的过程。说明当大模型学习更为丰富的模态数据后,其在处理复杂信息理解和生成任务时会有更强的表现。
图注:MUM模型展示根据用户提问搜索对应旅行攻略的过程
大模型能够落地应用的领域,本质上和其预训练的数据模态、数据类型密切相关。例如面向目前对视觉通用任务处理的需求,“视觉大模型”——即采用Transformer架构,但学习大量的图像和视频数据,让模型产生视觉通用能力的模型应运而生,这是已有的多模态模型还做不到的。
考虑到视觉任务在日常生活和产业发展中占据更大的比重,笔者认为,如果视觉大模型能够达到产业落地所需的精度,其落地场景和商业化进程或许会超过语言大模型。
05
困难与挑战
总体而言,大模型落地困难主要在于:
一是模型智能能力不足,不足以驱动下游应用服务(家用电器)运作;
二是产业模式发展不够成熟,模型和应用服务之间尚未建立成熟的互动机制,即使智能能力接入,下游应用无法将智能能力转换为实际的能力和服务。
此外,大模型加剧了伦理、数据隐私安全等方面的矛盾,但相应的监管机制尚不健全。
目前阻碍大模型广泛落地的主要原因包括三个方面因素。
技术方面,大模型存在性能、配套服务等方面的不足。大模型的推理性能达不到日常应用的水平,这主要是因为模型不具有常识,无法进行逻辑推理,因此会产生很多语法正确但没有任何意义的句子/图片。这需要模型进一步加强对常识的学习和理解能力,如引入知识图谱等,帮助模型真正“理解”所学所说的内容。
产业方面,目前围绕大模型的产业模式仍处于初步发展阶段。对于将大模型集成在已有的技术体系中,产业界目前没有明确的定论,采用API、本地部署微调模型、基于模型公开架构进行自研等模式均具有一定的优势,但投入也相应增加,企业尚且对大模型技术还不够了解,更不用说确定一种符合自身产业发展的模式。
此外,目前企业普遍缺乏领域定义明确,积累较好的数据集。许多场景或限定不够明确,或缺乏基础数据积累,连基础的AI应用都可能无法满足,更不用说落地大模型了。
产业领域的落地问题目前已有一些解决方案。例如,GPT-3公开API的时候,采用的是申请试用机制,允许部分开发者尝鲜。待模型能力和API开发逐步完善后,再将商业化的模型API公开。此外,OpenAI为GPT-3开发了一个API平台,让付费用户可以在平台上管理已获得的API和能力,为用户提供定制化、精细化的服务。
监管方面,关于大模型能否在一些场景进行落地,目前国内外都缺乏相应的政策、法规和应对机制,从规避风险的角度,许多企业不愿意贸然引入大模型技术。
一是在数据隐私方面,模型如果采用互联网公开数据训练,在特定领域的微调,是否对某些信息的版权造成侵害?
二是模型的推理结果不是完全确定的,在媒体、教育等领域,监管机构无法对其生成的结果进行提前审核,落地风险较大。
三是模型本身可能存在偏见等问题,在一些领域落地可能加剧歧视和社会不公。
在降低模型风险这一方面,目前最容易解决的方法都是技术手段。例如,研究者可以提出能够对模型内容进行审查、管理和矫正的数据集和预训练策略,降低产生不良信息。
从AI治理的角度出发,监管需要跑在产业落地之前。大模型在数据隐私方面的监管需要AI科研机构、企业和监管部门共同合作。仅仅由监管部门单独制定的监管政策,可能更多从降低风险的角度出发,在严格避免风险的同时,也可能会阻碍大模型商业落地的进程。
06
产业链展望
在不久的未来,大模型产业结构将进一步分化,形成“上游-中游-下游”三层的产业链格局。总体架构如下:
图注:大模型产业链
上游产业
上游产业包括支撑大模型研发、运行等的一系列产业的总称,总体上可分为硬件、软件两部分。其中,硬件上包括通用计算芯片、AI计算加速芯片、计算服务器、存储服务器、高速互联网络等。软件包括云计算环境、数据库组件、容器和虚拟化技术等。
中游产业
中游产业主要围绕大模型技术研发、管理和运维发展。技术研发方面,主要包括算法研发所需的编程环境(语言)、算法框架等工具,甚至可能出现专业的模型测评机构。同时,可能出现一批基于模型技术开发平台、服务和软件开发的企业。
下游产业
下游产业主要是大模型重点落地的场景,这些场景可以和教育、营销、社交、娱乐等产业结合,形成丰富的产业形态。根据目前大模型落地应用情况,未来主要发展的下游场景包括:
1. 内容生产:大模型将集成在文本、PPT、表格工具,具有更为智能的能力,能够在软件内进行转写、摘录、自动补全、拼写检查、自动配图、自动翻译等高级能力。此外,一些专业领域内的软件和服务将快速发展,如博客文章撰写、新闻快讯撰写、百科撰写、小说补写、课程题目编写等,形成自动化的内容生产体系。
2. 创意设计:大模型将具备更强的概念组合和创造能力,能够根据人类的提示自动产出概念设计等结果,其创新能力和效率或许将超过设计师水平。
3. 对话引擎:大模型将成为专业场景和日常场景对话机器人背后的底层技术,通过预训练技术支持模型产生流畅、符合上下文语境、具有一定常识的聊天内容,支持娱乐形象或虚拟陪伴机器人。但同时模型也能够通过微调等方式,学习专业领域知识,在特定专业领域提供支持和服务,成为智能客服。
4. 智能检索:通过学习海量的互联网网页数据,结合大模型的生成能力,可为用户提供更为直观,便于理解的检索结果,满足数据挖掘分析、信息检索等需求。
5. 辅助开发:大模型不仅可以学习语言,对于代码等序列化数据也具有学习能力,其可以在代码检查、代码补全等方面发挥重要作用。
图注:“悟道”模型产业生态合作意向单位
07
结语
大模型技术的蓬勃发展,正在推动智能产业的快速发展。目前大模型产业落地仍处于较为初级的发展状态,主要存在的问题包括技术性能不足、产业模式不成熟、监管体系尚未建立等。
大模型产业落地需要时间和投入,随着未来产业发展模式的成熟,围绕上中下游将诞生丰富的大模型产业链,全社会都将从大模型这一智能社会的基础平台中受益。
关于智源源创计划
对于实验室出身的你,源创计划为你对接产业,提供真实需求场景,帮助你快速找到产品和市场的契合点。智源更理解技术精髓和应用场景的可能性。同时,源创计划会联合产业界为你提供一对一创业导师。
对于产业界出身的你,我们依托智源对AI技术最深刻的理解和AI技术最前沿的把握,与你一起为产业注入人工智能技术。源创计划将提供科学家网络,协助你做好技术选型和技术人才对接。
在底层资源方面,源创计划提供一系列智源创投基金支持,大规模预训练模型专业技术,以及开放数据集。
首批成员招募开启
欢迎加入预训练模型交流群!