若干帧对应于一个状态,每三个状态合成一个音素,若干个音素组成一个单词。
即:
把帧识别成状态。
把状态组合成音素。
把音素组合成单词。
参考文献:
【1】论语音识别三大关键技术
语音识别中,frame帧与单词的关系
最新推荐文章于 2024-10-20 18:13:00 发布
若干帧对应于一个状态,每三个状态合成一个音素,若干个音素组成一个单词。
即:
把帧识别成状态。
把状态组合成音素。
把音素组合成单词。
参考文献:
【1】论语音识别三大关键技术