1、声学识别模型
将从麦克风收集来的声音,进行一些信号处理,将语音信号转化到频域,从每10毫秒的语音中提出一个特征向量,提供给后面的声学模型。声学模型负责把音频分类成不同的音素。接下来就是解码器,可以得出概率最高一串词串,最后一步是后处理,就是把单词组合成容易读取的文本。
2、POMDP框架
3、api.ai 集中在NLU领域,语音及动作控制功能不提供
4、alexa 完全由API形式接入,需要使用AWS服务,设备接入需要建立自己的私有云(AWS),amazon同步带动自己的云服务
https://developer.amazon.com/alexa-voice-service
5、度秘
提供语音输入、TTS、NLU、对话管理、动作控制、模组、APP SDK、芯片的整套解决方案,生态定位比较全,但若没有标杆产品只定位为能力输出,商业变现及2D 2B吸引力不清晰