机器学习和自然语言处理技术的进步为语音与人工智能的交互提供了可能。人们可以通过对话获得信息,并与机器互动,而机器将不再只存在于科幻小说中。语音交互是未来的发展方向。智能扬声器是语音交互着陆的第一代产品。
以市面上面流行的智能电话机器人为例,他的AI模块主要包含了4部分自动语音识别(Automatic Speech Recognition, ASR),自然语言理解(Natural Language Understanding, NLU)
,自然语言生成(Natural Language Generation, NLG),文字转语音(Text to Speech, TTS)
。
以欧能智能机器人中的语音交互流程图为例子,来看看Ai智能机器人对话技术的主要路径:
在上图我们可以看到,用户使用的时候是与设备进行交互完成的,并且主要是采用语音的处理方式。
要想完整完整的完成语音交互,必须要弄懂流程,这是一款电话机器人好不好用的关键,一次成功的语音交互流程,主要涉及以下4个阶段,且环环相扣。
意图
表示用户在使用应用时所做的动作(譬如:问一个问题或发送一条指令),这些意图代表了应用的核心功能。如果应用成功地识别了用户意图,则需要在完成业务动作后,将结果反馈