距离语音交互技术的更大范围应用，还差点什么？

最新推荐文章于 2025-01-09 12:57:28 发布

Omni-Space

最新推荐文章于 2025-01-09 12:57:28 发布

阅读量537

点赞数

分类专栏： AI 文章标签：语音交互语音问答

AI 专栏收录该内容

8 篇文章

订阅专栏

上一次大家对语音技术有这么浓厚的兴趣还是在几年前，关注的对象是手机上的语音助手，如 Siri、Google Now 等。一开始大家对这种语音对话的形式感到很有趣，但尝试一段时间后发现，除了让它讲个笑话以及偶尔调戏一下逗逗乐子以外，再也想不到要唤醒它干嘛。终于，大多数人都渐渐遗忘了这个停留在角落里的虚拟语音助手。

这一次，一个新的带有语音交互功能的产品再一次引起了人们的注意，并在实际体验两年之后仍然兴趣不减、好评不断，这款产品就是 Amazon Echo。如果要用一句话来概括描述它，可以说它是一款「能听懂你对它说的话并在一定程度上给以有效反馈的智能助手」，如果浮夸一点宣传或者更好理解，可以说成它是真实版的的贾维斯（《钢铁侠》里的 JARVIS）。

国内目前还没有一个相对比较成功的同类产品，所以不太清楚国内用户怎么看待语音交互技术以及会不会喜欢这类产品。有一些分析类的文章很正经地解释说，由于东西方的文化差异，这类产品在国内比较难流行开，因为我们比较含蓄，不太喜欢这样直接地和一个硬件产品进行语音对话。这显然是想当然了，西方的扎克伯格（Facebook CEO Mark Zuckerberg）表示，他在某些情况下也不喜欢使用语音给他自己开发的人工智能助手贾维斯下指令，因为缺少秘密性以及会打扰到别人等。

可见在「跟机器人对话」这件事上无论东方西方大家都是一样有心理「障碍」，关键在于正确认识到「语音不是万能的」，找对语音的应用场景并且把使用体验做到最好，对语音技术的应用普及会有很有帮助。
所以 Echo 是怎么做的？
据彭博社的报道，Echo 团队最初在设计的时候并没有考虑主打音乐功能，只是在内测的时候发现，大家常用的功能是用语音搜歌，所以就加强了音质方面的特性，把产品的体积做大了。而在之后，一个工程师尝试着把语音功能接入智能硬件的控制，更加深受用户喜欢，成为引爆销量和好评的一个刺激因素。

具体大家都用 Echo 来干嘛呢？可以在 Amazon 的官网上找到很详尽的很用心写的评论和使用感受，例如——

「只要叫一声她的名字然后说出我们想要做的事情，Echo 都能用一种很美妙的声音即时响应然后帮你完成，无论你是坐在客厅还是在屋里走动着，她一直在那里准备着聆听。」
「我会让她帮我在 Amazon 上下订单购买东西、查询天气和我的日程安排，调节室内的温度」
「Alexa，这首歌是谁唱的？点赞，下一首，暂停播放，播放 Awolnation 的 Sail，把这首歌添加到我的播放列表，播放我 Spotify 里的某某播放列表」
「尤其是当你在厨房做饭的时候，你就可以直接让 Echo 帮你下订单要买的东西，再也不用担心忘记要买什么东西了」
「我不用再担心忘记重要的事情了，她会提醒我吃药，提醒我待会去看医生」
「早上醒来跟 Alexa 说早上好，她会说，早上好，今天是 Danny 的生日，记得准备礼物~」
「每天会读我选定的新闻简报给我」
「帮我朗读我 Kindle 里的所有书，不是机器的声音，听起来很舒服」

Echo 能做的事情越来越多，包括音乐搜索和控制、控制智能硬件、设置闹钟、查天气、查百科、设置提醒、读新闻、日程提醒、语音购物一键下单并支持查询物流状态……等等各种丰富且实用、使用体验很赞的功能。
之所以深受喜欢可能有这几个原因：
1.合成音比较接近人声，不是突兀的机器声，听起来感觉很舒服；
2.技术足够好，系统能快速响应，不用说一段话之后傻等着；
3.数据全且更新即时，总能提供令人出乎意料的服务。

其实两年前，国内就有类似的尝试，比如「小智音箱」，核心功能同样是音乐及智能家居控制，但不是很成功，其联合创始人李传丰曾分享过这样的思考为什么中国市场无法诞生Amazon Echo？
总结一下，大概有这些因素：

1、在国内，音频产品的价格80%在200块以内，超过500块的产品月销量很难超过一万台。
2、语音交互要做到好的使用体验，快速响应是最根本的需求，其他如合成音的质感、更全的数据和算法，要做到这些成本低不了；
3、国内音乐版权集中在几大巨头手中，对于创业公司来说，很难做到用户想听什么就有什么，进而影响用户体验；
4、国内玩智能硬件的本来就不多，厂商和品牌倒是挺多，除非你自己做到足够牛逼，否则没人愿意跟你合作
5、需要一段很长时间都看不到收获的技术积累期（Echo 用了三年多时间）

如今两年过去了，以上提到的这些状况似乎并没有多少改变。虽然人们在逐渐接受语音输入这种形式，开始有更多的人在尝试使用语音输入法，但在国内「语音交互」这种和机器进行对话的形式看似还比较遥远。
比如，目前来看，比较适合用语音交互的两个场景——车内导航和智能家居领域，已经有很多支持语音交互的产品，但是真正使用的人很少。
产品的设计是很理想的——坐到车上系安全带的时候顺便说一句「导航到XXX」，然后开车就出发了，但事实是，人们宁愿掏出手机打字；在智能家居的宣传中，有很多智能场景对大多数人来说无感的，「这些智能场景看起来很赞，但我不知道对我有什么用」或者说「这些场景看起来离我的生活很远」。比如「说句话就能开灯」这对用户会有多大吸引力？以及，对于大多数人来说，好像生活还没有忙到需要一个「智能助理」来帮助做日程管理。

因此，语音交互技术在推广上或许还要首先找到最适合的用户群和真正有价值的使用场景。比如，对于语音操控的宣传似乎要再弱化一点，一方面是因为目前在国内可以称得上智能家居的智能硬件在国内并没有很普及，另一方面语音操控在实际生活中真正使用频率可能没有那么高（Facebook 的 CEO 扎克伯格也分享过这方面的体会）。举例来说，「在门上加一个传感器、回到家打开门的瞬间灯就会自动开启」这个功能比「回到家对着空气喊一声开灯」显然体验要更好一些。

而在语音问答内容的提供上，应该是一个非常复杂而庞大的工作量。据 Amazon 创始人杰夫·贝索斯 2016 年在 Recode 大会上透露，Alexa 和 Echo 的研发团队已经超过了一千人。可见要达到让更大范围人群满意的效果，针对不同人群的各种细分领域，需要很长时间的积累。

音乐、电台、有声读物、订阅领域的新闻等，是语音交互类产品最适宜输出的内容，也是看似可以培养起来的用户习惯。早间起床洗漱到出门上班和晚上睡前的这两段时间，是智能音箱最有发挥空间的时间段。对于语音搜歌的形式，前几年有一款产品叫 Jing，可以通过「自然语言」搜歌，是一款非常受欢迎的小众产品，可以直接用语言描述来搜索歌曲，如「今天阳光很好」、「外边下雨了」、「我在阅读」「想听西方古典轻音乐」等，个人觉得这是可供参考的一个模型。

除了场景和用户群以外，最为关键的还是语音技术本身。比如要做到快速响应、远场精准识别等，这是良好用户体验的根本，但应该也是门槛比较高的事情，需要足够的技术积淀。Echo 实现了一秒内快速响应，使用热词唤醒之后基本不用再等系统响应就能直接继续对话，这也在一定程度上避免了和机器进行语音交互的尴尬。

但另一方面，智能音箱以及相应领域的产品，也绝不是技术制胜的，考验的是团队对场景的把握及运营能力。毕竟它并不是一个可规划的单一功能，也不是一家公司所能完全覆盖得了，而更像是一个宏大的「生态」，有赖技术应用领域的全面发展，互为依托，如物联网、智能家居应用的普及，各类内容源及场景规划的合作等。

期待好产品。

https://zhuanlan.zhihu.com/p/25279998