
在经历智能音箱的“百箱大战”后,这一波生成式AI浪潮下,语音交互似乎又死灰复燃了,语音交互重新回到主流AI对话产品的视野,从国外最负盛名的ChatGPT到国内通用对话产品如豆包、Kimi、文心一言等,再到AI陪伴类产品星野、猫箱、Wow诸如此类,语音交互界面(LUI)会真正成为下一代人机交互方式吗?

我们不妨先来看看语音交互的局限性:
(1)声音本质上无法表达抽象思想。比如当我在写作时,如果我必须用语言叙述一切,我将无法完成任何文章。很多时候,我们的大脑里面只有零碎的意识,很难找到正确的词语,将它们表达出来。
(2)语音让很多事情变得更难而不是更容易。理论上,说出“叫一辆网约车去机场”似乎是完成任务的最简单方法,但是如果你还有其他要求,比如指定车型和限价,口头表达就会很麻烦。
(3)语音侵犯隐私。你说出指令的时候,愿意被别人听到吗?相信大部分人都只会在非常私密的场合下和AI进行对话,比如晚上一个人睡觉前。语音的私密性限制了LUI的大规模使用。
(4)视觉 UI 可以展示软件的局限性,语音 UI 就不行。很多事情,软件无法做到,视觉/图形交互界面(GUI)可以帮助我们了解软件的功能,比如你用高德地图导航,视觉交互能很清楚地表达应该走哪条路线。如果只用语音交互,你很难发现软件不能做什么事。
(5)用户不喜欢一直说话。使用语音完成简单的任务是可以的,但要完成所有事情很快就会变得烦人,难道你要一直说个不停吗?我们甚至没有意识到,我们一天中通过熟悉的视觉界面完成了多少微任务,譬如查看天气、日历、电子邮件、回复消息、浏览网页、刷短视频。当然,其中一些任务是消磨时间的一种方式,但消磨时间也是我们文化的重要组成部分,这种文化不会消失。
(6)语音无法解决现实世界中的歧义。语言表达可能存在大量歧义,无法通过纯语音界面轻松解决,AI可能无法正确理解你想要完成什么。有一个经典的笑话是这样的,你对AI下指令:买1个西瓜,如果有苹果,就买两个。最终你可能会得到两个西瓜,笑)

基于以上语音交互的局限性,我认为LUI很难成为成为通用交互界面。