原创 | 文 BFT机器人
2023年,生成式AI的崛起为所有科技公司开辟了一个全新的起点,伴随着大模型的广泛应用,新的应用场景、终端设备以及商业模式正在迅速涌现。然而,如何将这些新兴技术与既有的技术积累和行业经验相结合,从而把握住再次出发的契机,已成为数字化转型过程中的一大挑战。
基于对行业的深入洞察,「新起点·再出发」成为了MEET2024智能未来大会的主题词,以此引领产业迈向新的发展阶段。作为国内智能商业领域的盛会,MEET大会始终站在科技前沿,不断总结和展望智能科技的最新进展。
在此次大会上,备受瞩目的《2023年度十大前沿科技趋势报告》正式对外发布,这份报告由权威的量子位智库精心编制,结合了对科技领域的长期深入研究以及对近百家初创公司、产业研究院、投资机构的深度交流,准确提名了2023年度最具影响力的十大前沿科技趋势。
接下来让我们一探究竟,看看2023年度十大前沿科技趋势究竟涵盖了哪些令人瞩目的新兴技术!
-Part1 AI技术-
01 智能体热潮
大模型引领人机交互新篇章
在2023年,大模型的研发热潮为AI智能体的演进注入了强大的推动力,成为其发展的“动力引擎”。目前,学术界的研究重心已转向将大模型作为AI智能体的认知核心,凭借其独特的推理技术和强大的自然语言理解能力,大模型赋予了智能体卓越的学习和迁移能力,为相关研究提供了突破性的技术方案。
在智能体的架构方面,今年取得了显著突破,我们见证了以更灵活的思维算法技术取代传统的思维链和思维树推理方式。在智能体交互方面,斯坦福大学提出的AI小镇概念向公众展示了多智能体协同的巨大潜力,为实现更高效、更智能的决策与行动铺平了道路。
据量子位智库预测,未来智能体的发展将聚焦于两个主要方向:自主智能体和智能体模拟。这两个方向将分别满足B端和C端的需求,旨在提高复杂流程的效率并为用户提供情感情绪价值。
展望未来,嵌入自主智能体的软件极有可能颠覆现有的使用模式,从“用户适应软件”转变为“软件适应用户习惯”,从而真正成为用户的得力“个人助理”。
02 3D生成技术
新算法新模型引领质效可控性革新
在AGI大热的今年,游戏、影视和XR等行业对3D数据的需求持续增长,推动了3D生成领域的技术进步。
学术界在质量、效率和可控性等方面的研究取得了显著突破,不断涌现出新的算法和模型。在SIGGRAPH2023上,一篇被评为最佳论文的《3D Gaussian Splatting for Real-Time Radiance Field Rendering》介绍了3D Gaussian Splatting这一创新方法,可实现快速高帧率实时渲染。这一进展标志着3D生成领域取得了重大突破,部分数据集上的性能表现超越了NeRF。
今年10月,字节跳动的研究团队推出了一种全新的多视图扩散模型——MVDream。该模型可根据文本提示生成几何上一致的多视图图像,为3D生成提供了多视图先验。通过分数蒸馏抽样,该模型显著提高了现有2D提升方法的稳定性,有效解决了3D一致性问题。
此外,今年还涌现出多个优化的3D生成模型,这些进展共同推动了3D生成技术的不断进步,为相关产业的发展提供了有力支持。
03 统一分割模型
计算机视觉迈向“ChatGPT时代”的曙光
分割一切模型(SAM)是Meta在2023年推出的杰出AI模型,其相关论文在10月份荣获ICCV 2023的最佳论文荣誉提名。自SAM问世以来,计算机视觉领域及其相关研究在今年再度焕发生机。在SAM之前,我们所见的其他图像分割模型通常是专有模型,其优越性能无法在其他领域得到充分体现。
SAM的最大贡献在于,它能够快速且准确地分割未曾见过的图像,从而将先前零散的图像分割模型统一起来。有计算机视觉领域的专家认为,SAM的出现标志着计算机视觉领域正式进入“GPT时代”。
04 具身智能引领创新
AGI终极场景下的革命性终端
2023年见证了人形机器人与大型模型的同步飞跃,具身智能(Embodied AI)已成为AI研究的最新焦点。在这一年中,具身智能领域取得了多项关键技术的突破性进展。
6月份,李飞飞团队发布了具身智能的新成果VoxPoser,这一技术能够从3D空间分析目标和环境障碍,从而使真实世界中的机器人无需经过培训即可直接执行任务。此外,DeepMind今年发布了新的视觉语言模型Robotic Transformer 2(RT-2),该模型能够自动从互联网和机器人数据中学习,并将学习成果转化为机器人控制的通用指令。
在全球范围内,各种突破性的仿生机器人产品不断涌现,而随着大模型的广泛应用,具身智能的发展将迈入新的阶段。
-Part2 自动驾驶-
05 端到端自动驾驶
BEV+Transformer成为行业共识
CVPR今年将最佳论文荣誉颁给了端到端自动驾驶,这一决定几乎成为行业共识,预示着端到端自动驾驶是未来的发展方向。
随着生成式AI的进步,以ChatGPT为代表的大语言模型展现出卓越的泛化能力,从而吸引了大量关注。端到端自动驾驶技术以所有模块神经网络化为特点,对规则的依赖度较低,具备智能涌现和跨场景应用的潜力。
2023年,城市NOA成为自动驾驶厂商竞相追逐的新目标,而基于Transformer模型的BEV技术已成为当前的不二之选。
BEV+Transformer能够直接生成高质量3D数据,并包含更多有用信息,从而生成更合理的驾驶指令,这种技术有望逐步成为自动驾驶感知的主流范式。
此外,基于BEV的物体通过自上而下的视图完成轨迹预测和路线规划,能够避免图像视角下的尺度和遮挡等问题,成为实现端到端自动驾驶的关键要素。
若您对该文章内容有任何疑问,请与我们联系,我们将及时回应。