语音交互的局限性

老A的AI实验室

于 2024-11-18 19:20:09 发布

阅读量647

点赞数 9

分类专栏： # 【AI】文章标签：人工智能语言模型 AI LLM GenAI LUI 语音交互

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/acelit/article/details/143864643

版权

【AI】专栏收录该内容

35 篇文章

订阅专栏

在经历智能音箱的“百箱大战”后，这一波生成式AI浪潮下，语音交互似乎又死灰复燃了，语音交互重新回到主流AI对话产品的视野，从国外最负盛名的ChatGPT到国内通用对话产品如豆包、Kimi、文心一言等，再到AI陪伴类产品星野、猫箱、Wow诸如此类，语音交互界面（LUI）会真正成为下一代人机交互方式吗？

我们不妨先来看看语音交互的局限性：

（1）声音本质上无法表达抽象思想。比如当我在写作时，如果我必须用语言叙述一切，我将无法完成任何文章。很多时候，我们的大脑里面只有零碎的意识，很难找到正确的词语，将它们表达出来。

（2）语音让很多事情变得更难而不是更容易。理论上，说出“叫一辆网约车去机场”似乎是完成任务的最简单方法，但是如果你还有其他要求，比如指定车型和限价，口头表达就会很麻烦。

（3）语音侵犯隐私。你说出指令的时候，愿意被别人听到吗？相信大部分人都只会在非常私密的场合下和AI进行对话，比如晚上一个人睡觉前。语音的私密性限制了LUI的大规模使用。

（4）视觉 UI 可以展示软件的局限性，语音 UI 就不行。很多事情，软件无法做到，视觉/图形交互界面（GUI）可以帮助我们了解软件的功能，比如你用高德地图导航，视觉交互能很清楚地表达应该走哪条路线。如果只用语音交互，你很难发现软件不能做什么事。

（5）用户不喜欢一直说话。使用语音完成简单的任务是可以的，但要完成所有事情很快就会变得烦人，难道你要一直说个不停吗？我们甚至没有意识到，我们一天中通过熟悉的视觉界面完成了多少微任务，譬如查看天气、日历、电子邮件、回复消息、浏览网页、刷短视频。当然，其中一些任务是消磨时间的一种方式，但消磨时间也是我们文化的重要组成部分，这种文化不会消失。

（6）语音无法解决现实世界中的歧义。语言表达可能存在大量歧义，无法通过纯语音界面轻松解决，AI可能无法正确理解你想要完成什么。有一个经典的笑话是这样的，你对AI下指令：买1个西瓜，如果有苹果，就买两个。最终你可能会得到两个西瓜，笑）

基于以上语音交互的局限性，我认为LUI很难成为成为通用交互界面。

Ref：https://shubhamjain.co/2024/04/16/voice-is-bad-ui/

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

老A的AI实验室 给博主点一杯卡布奇诺

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。