我们的讨论将继续围绕语音栈展开,这次我想要探讨的是当前基于语音的系统普遍遇到的一个难题:语音活动检测(VAD)和交流中的轮流发言模式。
与基于文本的聊天机器人进行交流时,轮流发言的界限十分清晰:你输入一些内容,然后机器人回复,接着你再输入,如此循环往复。这种明确的轮流模式对基于文本的聊天机器人的成功起到了推动作用,因此大多数基于语音的机器人也采用了类似的轮流发言模式。
构建此类系统的重点之一便是加入VAD组件来检测用户何时在说话。这使得我们的软件能够捕获用户说话部分的音频流,并将其传递给模型进行用户发言阶段的处理。它还支持一定程度的打断功能,即当用户在AI系统输出时坚持打断,VAD系统最终会识别到用户正在说话,关闭AI的输出,让用户进行发言。在安静的环境中,这种机制运作得相当不错。
然而,今天的VAD系统在嘈杂环境下面临挑战,尤其是背景噪音来自其他人类对话时。例如,如果你在一个嘈杂的咖啡馆里与语音聊天机器人交谈,VAD系统(通常训练来识别人类语音)往往难以准确判断是你还是别人在说话。(相比之下,如果你在一个嘈杂的车辆环境中,由于背景噪音明显不是人类语音,VAD系统的表现要好得多。)它可能会误以为你在打断,实际上只是背景中的某人在说话,或者未能识别到你已经停止说话。这也是为什么今天的语音应用在嘈杂环境中常常表现不佳的原因。
令人感兴趣的是,去年Kyutai Labs发布了Moshi模型,该模型有许多技术上的创新。其中一个重要的创新是实现了用户与Moshi之间持续的双向音频流。
如果我们面对面或通过电话交谈,我们会不断地向对方传输音频(通过空气或电话系统),并使用社交线索来决定何时倾听以及如果觉得需要时如何礼貌地打断。因此,这些音频流不必明确地模拟轮流发言。Moshi的工作方式也是如此。它一直在倾听,并由模型决定何时保持沉默,何时发言。这意味着无需明确的VAD步骤。(Moshi还有其他创新,如“内部独白”,它同时生成文本和音频以提高响应质量。)
正如只处理文本的Transformer架构经历了许多演变(如编码器-解码器模型、仅解码器模型以及生成大量“推理标记”的推理模型),语音模型也在经历许多架构探索。鉴于具有语音输入和输出功能的基础模型的重要性,许多大公司目前都在投资开发更好的语音模型。我有信心我们今年会看到更多优秀的语音模型发布。
感觉语音领域的潜在创新空间仍然很大。像我上周提到的延迟问题以及VAD错误这样的技术难题仍有待解决。随着解决方案的不断改进,语音到语音将继续是一个有前景的应用开发领域。
吴恩达
2025年3月4日
吴恩达(1976-,英文名:Andrew Ng),华裔美国人,斯坦福大学计算机科学系和电子工程系副教授,人工智能实验室主任。吴恩达是人工智能和机器学习领域国际上最权威的学者之一。吴恩达也是在线教育平台Coursera的联合创始人(with Daphne Koller),DeepLearning.AI创始人。
2014年5月16日,吴恩达加入百度,担任百度公司首席科学家,负责百度研究院的领导工作,尤其是Baidu Brain计划。
2024年4月,亚马逊将吴恩达纳入其董事会。
(本文是翻译,文章内容不代表本号立场)
觉得文章不错,顺手点个“点赞”、“在看”或转发给朋友们吧。
相关阅读:
为什么说DeepSeek在物理世界最大的应用可能是智能电动车?
关于译者
关注公众号看其它原创作品
坚持提供对你有用的信息
觉得好看,点个“点赞”、“在看”或转发给朋友们,欢迎你留言。