AI 语音技术架构:

AI的语音技术现在在各种终端上都已经普及开,比如个大厂商的智能音箱,都运用了该技术。
以智能音箱为例,AI语音技术的架构为:
- 首先人类通过唤醒词,唤醒设备
- 发出语音指令:比如“今天天气如何?”
- 通过语音识别技术,将语音信息转化为文本信息
- 文本信息通过NLP技术理解其内在含义
- 通过深度学习模型/或者问答库找到合适的答案
- 通过NLP技术形成答案的文本
- 通过语音合成技术将文本信息转化为语音信息
- 通过智能音箱进行语音输出

要让机器理解语音的含义,我们需要两个模型:
一个是声学模型,一个是语言模型
前者是将语音转化为文本
后者是理解文本的含义