语音交互的局限性

在经历智能音箱的“百箱大战”后,这一波生成式AI浪潮下,语音交互似乎又死灰复燃了,语音交互重新回到主流AI对话产品的视野,从国外最负盛名的ChatGPT到国内通用对话产品如豆包、Kimi、文心一言等,再到AI陪伴类产品星野、猫箱、Wow诸如此类,语音交互界面(LUI)会真正成为下一代人机交互方式吗?

我们不妨先来看看语音交互的局限性:

(1)声音本质上无法表达抽象思想。比如当我在写作时,如果我必须用语言叙述一切,我将无法完成任何文章。很多时候,我们的大脑里面只有零碎的意识,很难找到正确的词语,将它们表达出来。

(2)语音让很多事情变得更难而不是更容易。理论上,说出“叫一辆网约车去机场”似乎是完成任务的最简单方法,但是如果你还有其他要求,比如指定车型和限价,口头表达就会很麻烦。

(3)语音侵犯隐私。你说出指令的时候,愿意被别人听到吗?相信大部分人都只会在非常私密的场合下和AI进行对话,比如晚上一个人睡觉前。语音的私密性限制了LUI的大规模使用。

(4)视觉 UI 可以展示软件的局限性,语音 UI 就不行。很多事情,软件无法做到,视觉/图形交互界面(GUI)可以帮助我们了解软件的功能,比如你用高德地图导航,视觉交互能很清楚地表达应该走哪条路线。如果只用语音交互,你很难发现软件不能做什么事。

(5)用户不喜欢一直说话。使用语音完成简单的任务是可以的,但要完成所有事情很快就会变得烦人,难道你要一直说个不停吗?我们甚至没有意识到,我们一天中通过熟悉的视觉界面完成了多少微任务,譬如查看天气、日历、电子邮件、回复消息、浏览网页、刷短视频。当然,其中一些任务是消磨时间的一种方式,但消磨时间也是我们文化的重要组成部分,这种文化不会消失。

(6)语音无法解决现实世界中的歧义。语言表达可能存在大量歧义,无法通过纯语音界面轻松解决,AI可能无法正确理解你想要完成什么。有一个经典的笑话是这样的,你对AI下指令:买1个西瓜,如果有苹果,就买两个。最终你可能会得到两个西瓜,笑)

基于以上语音交互的局限性,我认为LUI很难成为成为通用交互界面。

Ref:https://shubhamjain.co/2024/04/16/voice-is-bad-ui/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

老A的AI实验室

给博主点一杯卡布奇诺

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值