2024大模型十大趋势,走进“机器外脑”时代

在人工智能迅猛发展的今天,大模型技术正逐步成为各行各业的重要驱动力。作为现代科技的前沿,大模型不仅在技术层面上取得了突破,更在应用领域内掀起了一场深刻的变革。

7月5日,在2024世界人工智能大会•腾讯论坛上,腾讯研究院联合上海交通大学、腾讯优图实验室、腾讯云智能联合发布了《2024大模型十大趋势——走进“机器外脑”时代》报告。深入探讨2024年大模型技术的十大趋势,解析其对社会和产业的深远影响,带领读者走进一个全新的“机器外脑”时代。

PART.01

趋势一 算力底座

迈向十万卡集群量变,速度和效率双提升

生成式 AI 的迅猛演进,推动 AI 基础设施(AI Infra)加速发展,增长趋势将从大模型专业领域延伸至各行业领域,AI Infra“质量双螺旋”的发展模式将逐步形成,单集群从万卡“量变”至十万卡的同时,集成、互联和分布式将成为AI Infra“质变”破局的三板斧。

01人工智能基础设施供需两旺,增长趋势向行业企业延伸

生成式AI算力需求惊人,AI服务器市场增长预期明确。相关研究报告显示,自2012年以来,AI大模型训练的算力呈指数级增长,每3.4个月翻一倍。

图:历史上主要 AI 模型训练的算力用量趋势

IDC预计,全球人工智能硬件市场(服务器),将从2022年的195 亿美元增长到2026年的347亿美元,五年年复合增长率达17.3%。

其中,用于运行生成式人工智能的服务器市场规模在整体人工智能服务器市场的占比将从2023年的11.9%增长至2026年的31.7%。

图:全球人工智能服务器市场规模预测2022-2026

根据微软与Forrester Consulting联合进行的《人工智能基础设施现状2024年度调查》报告显示,在受访的 1500多名各行业和地区的商业领袖中,56%的人反映所在企业并没有良好的基础设施来支持AI相关的业务工作。

41% 的人认为人工智能基础设施是现阶段企业发展人工智能时最需要帮助的领域。

而43%的人主张积极主动的发展自己的人工智能基础设施战略,其中最积极主动的行业包括:制造业,金融,软件,零售和卫生保健。

02AI算力设施“量”变,集群规模将从万卡迈向十万卡

**生成式A I的训练集群规 模,已步入万卡量级 。**按照 Scaling Laws的基本逻辑,拥有越大的模型参数,人工智能大模型的能力就会越强。

同时,训练大模型所需要的算力集群规模也就越大,这样才能在合理的时间内完成大模型的训练。

**万卡集群的实现和运行,是各层级软硬件紧密耦合和持续调试的复杂系统工程。**万卡集群并不是简单的将 AI 加速卡在硬件层面进行单纯的连接和堆砌,还要能够基于计算任务进行统一调度和管理,以实现大模型训练和推理的算力集群。

03AI算力设施发展“质”、“量”兼顾,集成、网联和分布式将成破局三板斧

**AI算力设施应激式发展的副作用显现,全球呼吁“质”、“量”兼顾的可持续计算。**生成式AI的进展速度不断的加快,不断给我们带来对技术革新的惊喜和赞叹, Scaling Laws逐步也成为业界共识。

然而,“大力出奇迹”的粗旷发展思路,也导致了全球 AI Infra 建设的应激式响应,除了 AI 加速卡等器件的价格上涨外,激增的高功率智算集群给社会、环境以及投资企业带来的负面影响也在陆续显现,并有加剧的风险。

集成、网联和分布式将成为 AI Infra可持续发展的破局三板斧。

可持续计算的具体实现几乎涉及 AI Infra从底层物理器件到上层模型算法的所有方面,各种技术更新和优化措施的效果和周期也都不尽相同。当前,AI Infra “质”变所面临的基础问题,是算力集群的高能耗和低能效。

PART.02

趋势二 推理分析

LLM带来推理能力跃迁,开启“智力即服务”

大型语言模型(LLM)为人工智能带来了所未有的推理能力,极大地扩展了机器的认知边界。

它们不再仅仅是执行简单任务的工具,而是成为了人类的"智力外脑",能够提供深入的分析、创造性的解决方案和复杂的决策支持。

这种推理能力的跃迁得益于LLM在理解和生成自然语言方面的巨大进步。它们能够解析复杂的文本,提取关键信息,进行逻辑推理,并生成连贯、有见地的回应。

这使得LLM能够处理各种知识密集型任务,如法律分析、市场研究、科学发现等,为个人和企业提供了强大的智能支持。

01思维链的生成

与以往的人工智能相比,大语言模型的显著特征是推理能力的强大表现。推理能力是指模型在处理信息时,能够进行逻辑推导、分析和解决问题的能力。

通常体现在能够对复杂问题的理解、对信息的整合以及在给定上下文中生成合理、连贯和有说服力的回答。

02机器外脑开启“智力即服务(IQaaS)新模式

AI将引领新的服务模式,即“智力即服务”,它通过云端平台为用户提供了一种灵活、高效的人工智能使用方式。

过去的SaaS服务通常按每个账户定价,本质上是以员工成本为基准,以提高员工的生产力。在大模型时代,直接出售工作成果开辟来了新的垂直机会。

03机器外脑助力个体成为“超级生产者”

对于个体而言,大模型技术迭代加速、衍生的AI原生产品层出不穷,并非单纯是AI对人的能力的替代。LLM的推理

能力也为个人提供了巨大的便利。无论是学术研究、创意写作还是日常决策,人们都可以借助LLM获取深入的见解和建议。

个体借助大模型应用、通过与AI进行协作,能够有效拓展能力边界,在生活和工作场景中成为一名擅长“人机协作”、充满创意和效率的超级生产者。

随着大模型技术向多模态、端侧智能和Agents(智能体)等前沿方向演进,其在创作领域的应用潜力将持续赋能个体进行更高效、更具创造性的创作。

未来,我们将迎来一批具备以下特质的超级生产者:熟练掌握与AI协作的方式;具备跨学科和跨领域融合

PART.03

趋势三 创意生成

AIGC应用爆发,降低专业创作门槛

在这个精神追求引领物质需求的时代,AI的进步与社会文化的演变紧密相连,专注音乐和视频生成的AI平台应运而生,为热爱创作的“斜杠青年”们提供了更低门槛的工具,创建了自我表达和创意释放的新社区。

大模型的崛起并非仅仅是人工智能对人类能力的替代,更开启了人与AI协作的全新篇章。

01音乐生成模型拓展个体创作能力,降低专业创作门槛

一些平台采用类似MusicLM的架构和TTS(语音合成)技术,将音乐生成、人声合成和歌词创作等多项技术融为一体,将音乐创作和表演推向了全新的高度,让普通人不仅能“作曲作词”,还能当“音乐制作人”。

技术发展还为新型AIGC音乐创作社区的形成提供了新的契机,目前Suno平台已汇集了包括获得格莱美得奖艺术家在内的1000万用户。

图:个人制作的音乐可以在Suno上线得到用户围观、点评,推动AI音乐社区形成

02多模态AI改变视频内容生产模式

在Sora出现之后,DiT架构大大提速了相关领域的技术进展,类似技术和产品层出不穷。

近期生数科技和快手可灵,都已经在时长和效果上达到甚至超过 Sora 水平,而且可灵已经可以直接申请使用。

视频生成技术的应用正在逐步扩展到多媒体内容创作、游戏开发、虚拟现实等领域。

这些技术的进一步发展和优化,不仅将重塑内容创作生态,也将重新定义我们与数字世界的互动方式。

多模态AIGC技术将从以下方向影响视频内容生产模式,使得个体有机会创作低成本、高质量的视频产品,也为影视领域的“超级生产者”诞生带来新的机遇:

0****1

效率革命

AIGC技术通过自动化算法极大地加速了从概念构思到成品制作的整个视频生产流程,显著减少了传统视频制作中的时间消耗和繁琐步骤。

0****2

成本优化

AIGC技术的应用减少了对专业团队的依赖,通过智能化的视频生成和编辑,大幅降低了人力和试错成本,使得高质量视频内容的制作变得更加经济高效。

03个性化定制

AIGC技术利用用户数据分析,实现了内容生产的个性化定制,为用户带来更加贴合个人偏好的视频体验,同时为企业提供了更精准的市场定位和增强的用户粘性。

图:AI生成的长篇电影《Our T2 Remake》

展望未来,大模型不仅提升了现有行业的效率和产出质量,还极大程度降低艺术创作的门槛,加速“超级生产者时代”到来。

Sora、Suno等现象级产品,让普通人有可能创作出媲美专业水准的作品,并且快速渗透到媒体、影视、音乐行业,为创作注入前所未有的发展动力和想象空间。

基于大模型的软件和平台不仅仅是技术的应用,也是个体追求个性化表达和自我价值实现的新场域,更是技术、社会和文化的聚合点。

PART.04

趋势四 情绪感知

LLM赋予机器情感价值,打开人机陪伴市场

兼具EQ与IQ的大模型将在未来2-3年内打开人机陪伴市场。

基于最新的AI模型如GPT-4o和Gemini 1.5 Pro,未来AI陪伴将通过流式语音识别、多模态AI和情感计算等技术极大地提升互动体验。

在个性化方面,AI通过深度分析用户的情感和行为提供精准服务;在共创方面,AI能够实时理解和回应用户的意图,共同创造一个可交互的丰富世界;在平权方面,多语言支持和辅助技术使不同背景的用户无障碍交流。

为实现情感交互和多样性表达,如何做好大模型的长期记忆和持久性是需要突破的核心技术难点,其中涉及两个环节:一是记忆系统的建立,另一个是“回忆策略”的设定。

此外,数据隐私、算法偏见和心理依赖等伦理和隐私问题也需要得到充分关注和解决,以确保技术的公平性和安全性。

预测未来人机陪伴市场将从以互动游戏、兴趣社区为主的年轻人市场,进一步破圈到包括各年龄层的更广泛用户群体,通过不同级别的情感理解、发散性、准确性、物理交互水平解决用户的多元化陪伴诉求。

流式语音识别、多模态AI和情感计算等领域的突破为AI陪伴奠定了技术基础。

AI陪伴首先是个性化的。情商(EQ)是高度个性化的概念⸺不同的人对情感和社交动态的理解有所不同。

在高质量陪伴的过程中,核心的互动内容一定是人机共创的。理解用户、实现个性化需要丰富的上下文内容,为此,就要设定情景让AI与用户创造一些独特的共同经历。

最后,AI陪伴有望弥合数字鸿沟,以低门槛的形式走进寻常百姓家。

PART.05

趋势五 智能制造

大模型提升工业新质生产力

2024年被普遍认为是大模型应用落地的元年,而工业场景将会是大模型的重要战场。工业生产包含复杂的流程,为AI落地提供了丰富的场景。未来多模态大模型有望与当前普遍使用的专用小模型互补融合,并深度赋能工业制造的各个环节,从而推动生产制造的提质增效。

应用中“大模型+工业?”的落地模式将迎来爆发,从而推动工业产业变革,助力人类社会迈向更高层次智能化发展。

01工业场景是AI大模型的重要战场,未来5~10年最大的机会

工业场景将成为大模型最佳的“练兵场”,据专业机构统计,2023年我国全部工业增加值约40万亿元,而当前多模态大模型在应用中部署仅占了8%,未来存在巨大的上升空间。

多模态大模型深度赋能智能制造,将进一步推动生产制造的提质增效。在大模型的驱动下,工业场景下的丰富数据有望进一步整合并开源,如MvTec,Real-IAD等,为多模态大模型奠定并丰富数据基础,促进行业大模型的快速发展,同时反哺生产制造的提质增效。

大模型的落地,助力重构智能制造系统,推进工厂智能化,提升新质生产力。

02技术加快向工业领域的迁移,多模态大模型的能力升级,更好满足个性化需求

**工业多模态大模型对超微小目标的感知和超细粒度语义理解能力有望快速提升。**在工业生产的各个生产环节,为满足生产的要求,要感知的目标非常小,语义描述也趋于超细粒度描述。

**未来将增强模型对复杂多模态Prompt的理解能力。**现有的自然场景多模态大模型的Prompt指令数据集主要包含少量的人工标注图像-文本数据以及借助GPT-4V或Gemini-Pro等多模态大模型来合成的大量图像-文本数据,通过大量自然场景的多模态指令数据集进行指令微调能够实现较强的多模态Prompt理解能力。

**基础模型+小样本数据适配成为模型落地的新范式。**在生产制造中,由于生产工艺的不同、引进设备及视觉方案不同,文件及描述规范不同等因素,AI在实际落地中普遍表现出“需求个性化”。

PART.06

趋势六 游戏环境

大模型与游戏共生,打造Agent最佳训练场

**大语言模型与游戏环境的相结合,正在为AI Agent训练打造最佳训练场。**游戏不仅能为AI Agent训练提与现实世界类似的虚拟环境,还能为AI Agent训练提供清晰、可量化的评估规则,大幅提升技术迭代与测试效率。

**大模型与游戏共振共生,不断加速技术迭代与应用创新。**未来2-3年内,基于游戏环境训练通用AI Agent将成为行业趋势,游戏将成为AI Agent训练的重要试验场。在大模型和游戏环境的加持下,AI Agent将有望实现决策和泛化能力的突破。

01技术试验场:基于游戏环境的通用AI Agent实践

**Google SIMA带来“AI智能体的ChatGPT时刻”。**在人工智能领域,AI智能体(AI Agent)是指能够观察环境、作出决策并执行行动,以实现特定目标或任务的系统。

AI智能体可以是软件形式,如聊天机器人、推荐系统、游戏AI等,也可以是集成到物理设备中的,如自动驾驶汽车、机器人等。

**游戏是人工智能 (AI) 系统的重要试验场,**与现实世界一样,游戏也是一种丰富的学习环境,具有反应灵敏的实时设置和不断变化的目标。

图:Google SIMA项目概述

**SIMA项目是DeepMind团队在通用人工智能(AGI)研究领域的一个重要里程碑。**与该团队之前发布的游戏智能体相比,SIMA训练的目的不在于击败人类玩家或在游戏内取得高分,而是学会在各种游戏环境中遵从人类发出的自然语言指令,并作出与指令一致的行为。

**基于游戏环境训练通用AI Agent已经成为业内共识。**早在SIMA发布之前,业内已经存在着多个通用游戏智能体研究项目,其中比较有代表性的项目分别是DeepMind发布的Gato,以及英伟达发布的Minedojo,这两个项目分别对应着人工智能研究中的两类不同思路:解决足够多的任务或解决一个足够复杂的任务。

02应用新场景:大模型助力游戏创作,提升内容创作效能

伴随着以Stable Diffusion、Transformer等生成式AI技术的成熟,AI技术也开始反向助力游戏以及更广泛的文化行业的内容创作,越来越多的从业者能够以更低成本生成图片、文字、音视频、NPC等数字资产,提升产品研发效能,进一步降低交互内容的制作门槛。

国内科技公司也全面拥抱AI技术,用AI赋能内容制作工具,不断提升内容研发效率。

图:腾讯游戏AI引擎GiiNEX架构图

尽管当下的人工智能研究距离实现AGI还有相当长的路要走,但大语言模型与基于游戏环境的AI Agent训练,无疑为实现AGI开辟了新的可能性。

在未来人工智能技术的创新发展过程中,应进一步重视游戏产业的科技价值,明确游戏作为人工智能技术“实验场”的角色定位,更好发挥游戏产业在技术创新、应用创新和跨域反哺中的作用,助力数实融合快速发展。

PART.07

趋势七 移动革命

端侧模型优化带来应用入口变革

端侧生态已成为科技大厂竞争的焦点,端侧大模型结合AI芯片和操作系统,正在构建出一套完整的技术体系。

在交互入口方面,SaaS正在全面推进AI化,AI功能已被集成到各种应用中,从而提升用户体验;随着AI原OS的发展,操作系统可能会发展成API直接调用的模式,减少对传统图形用户界面的依赖,当前APP的交互服务形态将发生变化,回归本源,服务的深层价值决定着用户去留及时长。

01端+云结合的混合模型将是长期存在的主流

来自于端侧的硬件瓶颈。目前大模型想落地端侧,存在比较明确的“智力”门槛。

未来AI Agent优势或不在端侧体现。需要更专业的AI Agent主动式工作流程,搭配云端最先进的模型来实现,且不断突破能力上限。

**不是所有端侧都需要本地模型。**当前有四类主要的终端设备:1)PC、手机终端;2)AR与VR设备;3)智能车;4)大量的收数设备,小微终端都不会是端侧大模型的第一代产品形态。

02领先于原生智能终端,终端交互体验提前变革

短期来看,虽然整体的能力输出,需要硬件生态的发展,与云上大模型配合,才能实现通用Agent、复杂COT/TOT、超长文本、多模太等高级功能,但这并不妨碍端侧大模型,成为各大基础模型厂商有效的进行价值兑现重要入口的这一趋势,变化已经在提速。

SaaS将全面推进AI化。

APP将面临AI原生OS不同的“去皮”风险,交互方式回归「本源」,直接调用API。

PART.08

趋势八 具身智能

人型机器人与大模型共同进化,为外脑提供“躯体”

人型机器人作为人工智能的终极载体之一,凭借其类人形态和全身自由度,能够适应未经特别改造的人类环境,从而在各种生产和生活场景中发挥作用。

人形机器人的发展依靠两大技术支柱:运动控制与任务训练。

这两种技术的融合不仅推动了人形机器人的技术革新,也为其在实际应用中的广泛部署打开了可能。

01运动控制关键技术进步促进机器人“大脑”运行

电机技术革新助力人形机器人实现高效精确的运动控制。人形机器人的组成复杂且精密,涵盖了模拟人类的腿、腰、手等硬件结构,这些结构使得机器人不仅能行走和搬运,还能执行如抓取等精细动作。

**运动控制关键技术进步促进机器人“大脑”运行,人形机器人将在广泛应用场景中发挥更大作用。**优化的运动控制不仅提升了机器人的基础动作执行能力,更是智能化发展的基石。

02任务训练与大模型的结合

任务训练成为了人形机器人领域技术进步的另一个关键领域。在这一方面,OpenAI、Figure以及Nvidia等公司的创新尝试展示了如何通过大模型技术来提高机器人的学习效率和执行任务的能力。这些大模型通过处理庞大的数据集,使机器人在学习执行特定任务时更为高效。

03人形机器人与大模型机器学习的融合将引领技术革命,加速产业广泛落地

预计随着大模型技术的不断进化和优化,未来人形机器人将在智能化和自主性上实现更大的飞跃。

他们将能够更加自如地在复杂环境中工作,执行更多需要高级认知和决策能力的任务。

这将极大地扩展人形机器人的应用范围,从而更深入地融入人类的日常生活和工作中,成为社会发展的重要推动力。

总之,人形机器人技术的快速发展和大模型的集成正开启一个新时代,这不仅将改变机器人行业的面貌,也将影响我们的工作和生活方式,带来前所未有的变革。

PART.09

趋势九 开源共享

开源生态实现降本普惠,推进外脑共享和迭代

基于对国内外100多个开源大模型的分析,预计未来2-3年内,AI开源生态将迎来繁荣发展,随着开源大模型数据质量与多样性提升,大模型将实现规模缩减和质量提升,推进开源大模型从“可用”到“好用”的演变。

01AI开源生态更加繁荣,持续推动大模型质量持续提升

在未来2-3年内,AI开源生态预计将进入一个更加繁荣的阶段。

目前开源大模型生态包括了大语言模型、多模态大模型、具身智能大模型,以及部署和应用工具等。

图:2023年以来国内外每个月发布的重要通用开源大模型数量

数据来源:腾讯研究院收集整理

02AI开源推进全球范围的开放创新

开源大模型推动社区驱动的开放创新,其全球协作特性将促进不同国家和地区开发者的共同工作,分享知识和经验。

03AI开源助力更多商业场景发展

大模型厂商也将面临大模型开源和闭源的选择。在闭源模型性能无法与其他厂商显著拉开差异的背景下,一些厂商也将选择开源路线,来推进大模型性能的加速迭代和用户生态的尽快构建。

图:国内外不同行业领域中的重要开源大模型数量

数据来源:腾讯研究院收集整理

图:国内外重要开源大模型类型占比

数据来源:腾讯研究院收集整理

04AI开源将促进安全治理和人才培养

最后,开源大模型及相关工具因其开放性,也将更有利于安全治理。

热别是开源项目促进了不同学科领域的专家之间的合作,有助于从多角度审视和解决伦理和可解释性问题。

例如,技术专家、伦理学家和法律专家可以共同工作,确保AI系统的决策过程不仅符合技术标准,也遵循伦理和法律规范。

在推进AI技术在更加精准、高效的同时,更具备安全性和隐私保护能力。

PART.10

趋势十 人机对齐

人机对齐是大模型产品的重要竞争力,也关乎通用人工智能的未来

在大模型时代,随着AI模型具有越来越多的类人能力、越来越像人,不再被视为纯粹的被动工具,如何让AI模型的能力和行为和人类的价值、目标、伦理道德、意图等追求相一致,这个被称为AI对齐的问题变得越来越重要。

人机对齐由此成为了AI发展的重要理念和技术实践。在实践层面,人机对齐是大模型产品成功的关键,也是实现通用人工智能(AGI)的前提。

通过人机对齐我们可以构建更加实用、诚、安全、无害的AI系统,确保智能向善。

01大模型发展引发深度担忧,AI对齐成为关键议题

除了数据保护、个人隐私、算法歧视和算法黑箱、虚假信息、模型网络安全等已有伦理问题,未来的AI大模型(即所谓的“前沿AI”)是

否可能导致灾难性风险或极端风险的问题也得到了更多的关注。

02人类反馈方法和原则型AI方法推动AI对齐有效落地

AI对齐作为大模型研发过程中的一个重要环节,目前主要有两种AI对齐的方法。一种是自下而上的思路,也就是人类反馈的强化学习,需要用价值对齐的数据集对模型进行精调,并由人类训练员对模型的输出进行评分,再通过强化学习的方式让模型学习人类的价值和偏好。

另一种是自上而下的思路,核心是把一套伦理原则输入给模型,并通过技术方法让模型对自己的输出进行评分,以使其输出符合这些原则。

03AI对齐是大模型的必由之路,也关乎未来AGI的安全发展

AI对齐在解决大模型的安全和信任问题上扮演着重要角色,能够实现安全与创新的有效平衡,需鼓励、支持大模型价值对齐的技术和管理措施,推动形成相关的政策指南、行业标准、技术规范等。

总之,AI大模型未来会在更多场景中辅助人类甚至替代人类做出各种决策和行动,因此AI对齐是大模型的必由之路,这既关乎信任,也关乎控制。

因为AI对齐不仅是将现在的大模型打造成更加安全、真诚、有用、无害的智能助手的核心举措,也关乎未来的AGI的安全,对于控制未来更加强大的AI模型的涌现风险至关重要。

  • 24
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值