来源:机器之心
本文约2400字,建议阅读5分钟
它们都将成为元宇宙时代的杀手级 APP?
Meta 正在致力于通过语音生成元宇宙世界的人工智能研究,还有很多神奇的技术。首席执行官马克 · 扎克伯格本周三表示,该公司正在研究改善人们与语音助手交流顺畅程度,以及在不同语言之间进行翻译的方式。
最近一段时间,扎克伯格正带领脸书 all in 元宇宙,并预测在未来人们可以在虚拟世界中工作、社交和娱乐,这一环境将最终代替互联网。
至于元宇宙、虚拟现实是如何能够让人沉浸其中的,“解锁这些进步的关键是人工智能,”扎克伯格说道。
让做饭看起来和《模拟人生》里一样简单。
Meta 正在研究一类新的生成 AI 模型,该模型将允许人们描述一个世界,人工智能自动生成它的各个方面。在昨天的演示中,扎克伯格展示了一个名为 Builder Bot 的 AI 概念,人们在元宇宙的岛屿上以 3D 化身的形式出现,并发出语音命令创建海滩,系统可以遵从人们的命令随时更改天气,添加树木甚至野餐毯。
海滩、岛屿、椰子树,想要什么场景,跟 AI 说一声就有了。
“随着我们进一步推动这项技术,你将可以创造出梦想中的世界,用你的声音与他人探索和分享经验。”不过扎克伯格没有为这些计划设定时间表,也没有提供有关 Builder Bot 工作原理的更多细节。
另一部分是语音识别技术,Meta 表示正在研究人工智能,让人们能够与语音助手进行更自然的对话,这是让人们在元宇宙中与人工智能顺畅交流迈出的一步。扎克伯格表示,该公司的 CAIRaoke 项目是“用于构建设备助手的完全端到端的神经模型”。
在扎克伯格的展示中,CAIRaoke 在一个“非常实用”的家庭场景中起到了作用:人在煮炖菜时,语音助手会发出提示,警告说盐已经加到锅里了。AI 助理还注意到盐放少了,于是提示要放更多。
在 Meta 随后发布的博客中,研究者们对 CAIRaoke 背后的技术进行了解读。人工智能语音助手的传统方法需要四组输入和输出——管道的每层(NLU、DST、DP 和 NLG)各一组。它还需要为每一层的输入和输出定义标准。例如,对于 NLU,传统的会话 AI 系统需要定义的本体(例如,各种意图和实体)。
但 Meta 提出的新模型根本没有规定会话流,使用时我们只需要一组训练数据。CAIRaoke 减少了添加新域所需的工作。在规范方法中,扩展到新领域需要顺序构建和更改每个模块,然后才能可靠地训练下一个模块。换句话说,如果 NLU 和 DST 每天都在变化,就无法有效地训练 DP。一个组件的更改可能会破坏其他组件的效果,从而需要对所有后续模块的重新训练。这种相互依赖减慢了后续模块的进度。
Meta 的端到端技术消除了对上游模块的依赖,提高了开发和训练速度,使我们能够以更少的数据微调其他模型。
Meta 表示,它已在旗下的视频通话设备 Portal 中使用该模型,并期待将其集成到具有增强现实 (AR) 和虚拟现实 (VR) 的硬件设备中。在接受路透社采访时,Meta 的 AI 副总裁 Jérôme Pesenti 表示,该公司正在严格限制其基于 CAIRaoke 人工智能新助手的响应,直到它能够确保系统不会产生冒犯性的语言。
“这些语言模型性能强大…… 我们正在努力研究如何控制,”Pesenti 说道。
扎克伯格还宣布,Meta 正在开发一款通用语音翻译器,旨在提供横跨所有语言的即时语音到语音翻译。该公司此前已为其人工智能系统设定了翻译所有书面语言的目标。
“能够用任何语言与任何人交流,这是人们梦寐以求的超能力,而人工智能将在我们有生之年实现这一目标。”扎克伯格表示。
尽管当前的翻译工具可以很好地适用于英语、普通话、西班牙语等常用语言,但世界上大约 20% 的人口不会说这些系统所涵盖的语言。通常,这些服务不足的语言没有易于访问的书面文本语料库,这些语料库也是训练 AI 系统必需的,甚至一些语言根本没有标准化的书写系统。
Meta 表示,它希望通过在两个特定领域部署新的机器学习技术来克服这些挑战。第一个称为 No Language Left Behind,将专注于构建可以使用更少的训练示例学习翻译语言的 AI 模型。第二个是通用语音翻译器,旨在构建直接将语音从一种语言实时翻译成另一种语言的系统,而无需书面组件作为中介(书面中介是许多翻译应用程序的常用技术)。
具体来说,Meta 正在构建一个新的高级 AI 模型,其可以从更少的示例中进行语言学习,Meta 将使用它来实现数百种语言的专家级翻译,从阿斯图里亚斯语、卢甘达语到乌尔都语。Meta 还在构建新型通用实时语音翻译器,以支持没有标准书写系统的语言及口头语。
基于自动数据集创建工具 LASER,Meta 研究者构建了 ccMatrix 和 ccAligned 等系统,它们能够在互联网上查找不同语言的平行文本。由于低资源语言的可用数据很少,Meta 创建了一种新的训练方法,使 LASER 能够专注于特定的语言子组——例如班图语——并从更小的数据集中学习。
这些努力使得 LASER 能够跨语言大规模有效地运行,Meta 最近还将 LASER 扩展到了语音处理领域。
为了提升机器翻译模型的性能,Meta 投入大量资源创建了大容量且可以高效训练的模型(稀疏门控的专家混合模型)。通过增加模型体量和自动路径学习功能,不同的符号可以使用不同的专家能力。为了将基于文本的机器翻译模型扩展到上百种语言,Meta 构建了第一个不以英语为核心的多语言翻译系统,其效果甚至优于最好的双语翻译模型。
在宣布这一消息的博客文章中,Meta 研究这还没有提供完成这些项目的时间表,也没有提供实现目标的主要路线图。相反,该公司只是强调了通用语言翻译的可能性。
Meta 还设想这种技术将极大造福于其遍布全球的产品,进一步扩大其影响范围并转变为数百万人必不可少的通信工具。正如博客文章写到的那样,通用翻译软件将成为未来可穿戴设备的杀手级应用,如 Meta 正在构建的 AR 眼镜,还将打破“沉浸式”VR 和 AR 现实空间(Meta 也在构建)的界限。
换句话说,虽然开发通用翻译工具会带来人道主义利益,但对于 Meta 这样的公司来说,它也具有良好的商业意义。
这家社交媒体为主业的公司在最近的财报公布之后市值缩水了近三分之一,出于对未来的思考,脸书已将努力的主要方向转变为建立虚拟世界,并为此直接更改了公司名称。本月 Meta 报告称,该公司的增强和虚拟现实业务 Reality Labs 2021 年净亏损 102 亿美元。
Meta 的 AI 负责人 Pesenti 表示,这家公司正在探索 AI 如何调节元宇宙中的内容和行为。
“在我们的主要平台上,使用了大量的 AI 来调节其中的内容。元宇宙有些与众不同,因为它更加实时,”Pesenti 说。他表示这是一项“发展中”的工作,Meta 也在研究元宇宙的一些策略问题。
在 AI event 上,扎克伯格表示 Meta 正在探索 AI 如何通过自监督学习来解释和预测元宇宙中可能发生的互动类型。因此 AI 可以通过自监督学习获得原始数据,而不是用大量标记的数据进行训练。
同时,Meta 也在研究以个人为中心的数据,包括从第一人称看世界。扎克伯格表示 Meta 已经与 13 所大学和实验室组成了一个全球性的联盟,共同推进 Ego4D 数据集的研究,这是目前最大的以个人为中心的数据集。
参考内容:
https://www.reuters.com/technology/metaverse-event-metas-zuckerberg-unveils-work-improve-how-humans-chat-ai-2022-02-23/
https://ai.facebook.com/blog/teaching-ai-to-translate-100s-of-spoken-and-written-languages-in-real-time/
https://www.theverge.com/2022/2/23/22947368/meta-facebook-ai-universal-speech-translation-project
编辑:于腾凯
校对:林亦霖