目录
概念
- 回声消除 AEC(Acoustic Echo Cancellation)
- 自动增益 AGC(Auto Gain Control)
- 静音检测 VAD(Voice Activity Detection)
- 噪声抑制 NS(Noise Suppression)
- 自动语音识别 ASR(Automatic Speech Recognition)接收音频输入,输出一个转录的句子文本。一般包括4大块:
信号处理、声学模型、解码器、后处理
。首先采集声音,进行信号处理,将语音信号转化到频域,从N毫秒的语音提出特征向量,提供给声学模型,声学模型负责将音频分类成不同的音素,接着解码器得出频率最高的一串词串,最后的后处理就是将单词组成容易读取的文件。 - 自然语言理解NLU(Nature Language Understanding)负责将自然语言表示成计算机能够处理的结构化数据。接收文本输入,输出结构化的三元组
Domain(领域)+ Intent(意图)+ Solt(插槽)
。主要通过分词、词性标注、命名实体识别、句法分析、指代消解等进行语义解析。
参考:
https://xie.infoq.cn/article/e633a9d506f87438df71c9abe