在人工智能(AI)领域,由于大型多模态模型(LMM)的激增,感官(视觉、听觉和交互)的整合代表了一个正在迅速扩展的前沿。
人工智能系统处理和理解多模式数据的能力不断增强,为物联网(IoT)、移动、机器人等领域的应用提供了突破性的可能性。它还为我们与技术互动的方式带来了根本性的变化,允许你在人际互动中看到那种细微差别和实时流动。
该领域的一个重大进步是能够直接在设备上运行AI系统。这一发展不仅降低了内存成本和延迟,还提高了可靠性和安全性。高通 AI Research一直处于领先地位,通过今年早些时候在Android手机上运行的世界上第一个多模态大型语言模型(LLM)等创新突破了界限。这一突破展示了在日常设备上访问更复杂的人工智能应用程序的潜力。
实时解决方案
实时模型流,即从各种来源收集和摄取数据并实时处理的能力,是人工智能模型了解其环境并与附近人类互动的关键要求。
自回归语言模型是这种多模式代理的一个有用组件,因为它已经能够与用户进行对话。此外,语言使得对代理任务进行编码变得容易,从而产生一定程度的“常识”。
因此,流式多模式LLM被视为解决与情境代理进行开放式异步交互所面临的两个挑战的解决方案:
- 仅限于关于离线文档或图像的回合制交互。
- 仅限于在视觉问答(VQA)类型的对话中捕捉现实的瞬间快照。
几年前,我们扩大了生成式人工智能的研究范围,以研究多模态语言模型,主要动机是将语言的使用从单纯的交流扩展到推理,并增强模型对日常情况的常识理解。
我们在位置视觉语言模型的端到端训练方面取得了进展,该模型可以实时处理实时视频流并与用户动态交互。虽然这项技术可能以指导和现场协助的形式提供即时价值,但我们认为,即使是通往目前广受赞誉的人形机器人的长期道路,也需要使人工智能模型能够使用常识与我们进行推理和互动。
迈向综合互动解决方案
股份有限公司高通技术公司继续支持机器学习社区,提供能够开发基于多模式交互的应用程序的工具。这些工具促进了创新,并允许开发人员探索人工智能应用的新领域,从具有增强常识推理的人工智能模型到智能个人助理。
在过去几年中,高通创新中心(QuIC)在Github上开源了这些工具。
我们的研究“端到端学习足以识别健身活动吗?”表明,使用3D可步进因果卷积可以在推理时实现高效的视觉流。现在,由于Sense推理引擎,开发人员可以使用任何RGB相机来增强他们的应用程序,使其能够看到人类并与人类交互。
端到端训练结合多模态推理能力的提炼(看、记住和推理:在带有语言模型的视频中进行有根据的推理),使模型能够实时提供有用和准确的反馈。我们在“人工智能中的感官整合”网络研讨会上展示的健身演示中融入了这种无缝的方法。
多模式学习将继续发展
人工智能的未来在于其实时运作的能力,以及对周围环境的情境感知,使机器能够以与人类互动一样复杂和微妙的方式与世界互动。高通 Technologies处于这项技术的前沿,通过多模式学习和设备上处理突破了人工智能的界限。随着人工智能的不断发展,它可以改变我们与技术的互动,使其更加直观、高效和安全。