语音交互和文本搜索的本质区别

彭军辉

于 2021-08-19 09:13:04 发布

阅读量354

点赞数 1

原文链接：https://mp.weixin.qq.com/s/z9NbijUznonBwRl8rnlWpw

版权

氖星智能彭军辉

最近一直在思考一个问题：当一个用户跟一个机器人或者其他语音交互的智能硬件进行语音交流的时候，和他（她）在一个搜索引擎的输入框里输入文字查询有什么本质区别呢？

我思考这个问题是我发现很多人认为语音交互就是把语音变成文字，然后交给搜索引擎去搜结果。连行业内很多从业者都是这么认为的。

但语音交互产品的使用者却不是这么看，他们期望机器人或者其他语音交互的智能硬件能像人一样聪明，理解自己。

有一次我们一个客户跟我反馈，说他在自己机器人知识库存了条知识“注册商标怎么收费”，可是在机器人界面提问却不能正确回答。他问我是怎么回事？我在他的机器人界面检查，发现的确有这个问题，问“注册商标怎么收费”不能正确回答。后来我仔细检查，发现他在知识库里存的知识是“商标注册怎么收费”。我发现我们算法不能把“注册商标”和“商标注册”当成同义词。我把这两个词当成同义词以后，客户的问题就解决了。我给客户解释说这是同义词问题，客户说，“什么？我存的是商标注册怎么收费啊？不都是一个意思吗？”

注意：当用户用语音表达时，用户脑子里没有文字，用户只是表达自己意图，通过语音。一个人不认识字，他一样能说话，能表达清楚自己的意图。用户表达同一个意图，在不同的时候，可能用的语言是完全不一样的。这个时候连用户自己可能都没有意识到。这是我要讲的第一点。

请看这个笑话：

小明是个非常严谨的人。

有一天快吃饭了，小明媳妇喊他，“小明，去买两瓣蒜回来。”小明出去了一圈，回来手里果然只拿了两瓣蒜。

又有一天，家里又没蒜了。小明媳妇喊小明去买蒜，这次她说的是“小明，去买几块钱的蒜回来。”小明反问到“到底几块钱的？”小明媳妇说“估计5块钱的就可以。”一会小明回来了，手里拿着几颗蒜。

又有一天，家里又没蒜了。小明媳妇喊小明去买蒜，这次她说的是“小明，去搞点蒜回来。”小明出去了一会就回来了。没一会，有人敲门，小明媳妇开门，发现是菜市场卖蒜的，就问，“你有啥事？”卖蒜的说，“你家小明偷了我家几颗蒜。我来找他赔钱。”小明媳妇问小明是咋回事。小明说，“你不是让我搞点蒜回来么？”

故事里，小明媳妇说的“小明，去买两瓣蒜回来”“小明，去买几块钱的蒜回来”“小明，去搞点蒜回来”其实都是一个意思。但小明却听出了不同的意思。小明媳妇可能根本没意识到这几句话有啥不一样，反正她表达的都是一个意思。实际上我们正常人都能理解这几句话是一个意思，但小明这样“严谨”的人照着字面处理，反倒会理解错他老婆的意图。

语音交互我们要处理的是用户通过语言表达的意图，而不是语音转化出来的文字。用户的表达可能是不一样的，但表达的语义（意图）可能是一样的。语音识别在把语音转化成文字的过程，可能也会出错。如果按照错误的结果去处理，给用户的反馈肯定就是错的，交互就进行不下去了。

正如上文提及，两个人说话的时候，不存在把语音转化成文字的过程，都是在语音信号上做处理。对话的参与者透过对方说出来的话去理解对方的意图。这个处理的过程绝对不是个搜索的过程，而是一个复杂的思辨的过程。机器人只有学会这个思辨的过程，才能拥有真正的智能。搜索基本上是处理文本，文本输入什么就照着什么处理。就像小明那样，搜索认为“小明，去买两瓣蒜回来”“小明，去买几块钱的蒜回来”“小明，去搞点蒜回来”是不一样的。

其次，当我们说话的时候，我们会自然而然认为对方是聪明的，能理解我们的；当我们在搜索引擎输入框输入文字时我们自然而然认为我们需要自己从搜索结果里找出我们想要的东西。当我们说话时，我们期望获得对方的理解；而当我们搜索时，我们知道我们在操作一台机器。

我们经常觉得有人跟动物说话非常奇怪。那是因为我们认为动物听不懂人话。同理，当我们跟一个人说话的时候，也会考虑对方能不能听得懂。比如，我们跟老人和孩子说话时就会尽量说他们能听得懂的词。

当我们对一台机器说话时，我们已经默认它能听得懂我们了。如果结果并不是那么理想，我们也就不再对它说话了。

当我们操作一台机器时，我们会先学会它怎么用。我们要理解它的使用规则。这和跟机器说话是完全不同的。我们操作机器是我们已经知道它听不懂我们说的话了。

以前大家可能会觉得，对一台机器说话是不大正常的行为。因为那时候没有机器人能理解人类语言。

现在当我们对一台机器说话的时候，我们已经认为这台机器是具备智能的，是能理解我们的，是不需要（学习它的操作方法）操作的。

于是我们可以把机器分为可以语音交互的机器和需要人操作的机器。前者需要具备智能，理解人类语言。

第三，当我们说话的时候，总是基于一定对话场景表达的，经常是在多轮对话中表达清楚意图的，我们输出和获取的信息是多维的。而搜索往往只处理用户输入的文本这个一维的信息。所以语音交互实际上是处理一个过程，这要比搜索处理文本复杂多了。

基于以上三点认识，我认为语音交互和文本搜索是有本质区别的。

要做好语音交互，用做搜索的方法肯定是不行的。搜索只能处理文字，不能处理语义。搜索不能主动服务，不能给用户智能的体验。做好语音交互，关键是做好语义理解，提高机器智能。

上面从使用者的使用习惯入手，分析了语音交互和文本搜索的区别，主要观点有：

1.当用户使用语音交互时，用户通过语言表达的是自己的意图（语义），并不在意语言本身。

2.当用户使用语音交互时，就会默认对方是有智能，能理解自己表达的自然语言的。而当用户使用文本搜索时，习惯去操作机器，自己按照机器的规则处理。

3.当用户使用语音交互时，自然就会认为交互是个过程。处理语义也是对过程的处理，不是处理一句话或者几个关键字。

语音交互和文本搜索的巨大差异显然不仅仅是交互的介质从文本变成了语音。

我们很多同行不理解语音交互和文本搜索的巨大差异，他们认为用做搜索的思路就可以做语音交互。他们做出来的产品存在以下缺陷：

1.要求用户记住命令或者按照固定格式表达。比如：用户说“把晾衣杆降下来”可以执行，说“把衣架降下来”“降低晾衣杆”就不能执行了。用户说“关灯”能执行，说“关灯儿”不能执行了。这就是典型的命令式交互。命令式交互不是真正的语音交互。

让语音交互“去命令化”实际上是个系统性问题。尽管有些语音交互技术供应商可以穷举各种命令，但由于他们的系统结构是一个个模块拼凑起来的，进入每个模块就必然有各种命令。他们总得去让用户记住这些进入模块的命令，不然他们的那些模块可能就无法使用了。所以穷举命令并不能让语音交互的用户体验变得更好。

2.容错性差。语音交互经常遇到的问题就是语音识别出错。同音词问题，语音识别很难处理好。同音词问题还不算典型的语音识别出错。语音识别能把“前进”识别成“天津”，能把“后退”识别“回退”，这都是正常的。如果照着错误的识别结果去处理，就不可能让用户获得良好的体验。

搜索是就文本处理的，给什么样的文本就会获得相应的结果。而语音交互实际上要处理的是用户通过语言表达的语义，也就是用户意图。搜索不具备处理用户意图的抽象能力，很难让语音交互变得流畅起来。

3.在处理省略句、口语化表达、特殊句式方面存在明显缺陷。当用户用自然语言表达时，自然就会使用省略局、口语化表达和特殊句式。比如用户说：“要去北京的”就是省略句。这句话，售票员能听懂，但搜索引擎就会“一脸懵逼”。“我说去吃饭吧”，这句话的主语不是“我”。搜索技术会把“我”当成一个重要关键字去处理。“老张打了小明”“老张被小明打了”，搜索技术分不清楚这两句话的差异。

4.给用户一个列表让用户选。两个人谈话的时候，不会经常让对方做选择题。而当你使用一个用搜索技术做的问答机器人，你就得经常做选择题。我们使用搜索引擎就是每次都要做选择题，用搜索技术做的问答机器人本质还是搜索。

由于以上四个问题明显不是语音交互应该存在的问题，用搜索技术做的语音交互产品很难让用户获得良好体验。

怎样提高语音交互产品的用户体验，这是个非常庞大的工程，需要从硬件，系统，内容三个方面努力。我们氖星智能是先行者，也可能变成先烈。我们语义理解技术研发了20年，我们机器人大脑产品已经接近完善，我们提供了人机自然语言交互系统。要做好语音交互，还得硬件和内容来配合。硬件解决听得清的问题，内容解决懂得多的问题。