语音
hsb1132
这个作者很懒,什么都没留下…
展开
-
Transformer
1. transformer与RNN1)训练阶段不需要循环训练,输入数据直接输入序列数据进行embedding,不需要像RNN一样将序列数据依次放进模型。训练时由input生成attetion(相当于生成中间语言义信息,key-value),由output根据input生成的中间语义及目标值序列加掩码输出预测结果。2) 解码阶段需要循环解码,由语义及已经解码部分持续 生成未解码部分。2. embedding1) embedding由输入数据embedding、位置信息embed.原创 2020-11-17 16:11:33 · 267 阅读 · 1 评论 -
kaldi之HCLG生成
1.words.txt : word->id ; phones.txt: 音素->id; silence.csl:静音音素id; disambig.int:消歧音素id原创 2020-04-01 14:55:09 · 917 阅读 · 0 评论 -
GMM-HMM语音识别
模式识别中,一般假设噪声服从高斯分布,0/1信号加上噪声后,接收端会将信号放在两个高斯中算概率,然后用判决门限来识别原始信号,是单高斯模型。音素识别时,也可以用K个高斯表示K个音素混合,类似聚类的思路。但语音识别中是用多个高斯来表示一个音素,因为分帧时会将音素分成很多段,每帧不一定包含了一个完整的音素。语音识别中可以用KMeans来找HMM的参数初始值。...原创 2020-02-21 07:17:24 · 295 阅读 · 0 评论 -
语音识别之特征提取
1.因为语音信号不是平稳信号(均值方差等统计特征随时间变化),所以需要将信号分切成很多短的小范围内平稳的信号段(到音素级别),也就是分帧,常用的帧长为 25ms,帧移是10ms,前后帧重叠会使前后帧的统计特征不至于变化太大。分帧是用窗口函数与原信号相乘,但时域相乘到了频域是卷积,窗口函数如果用矩形窗则会因为矩形信号频谱有比较大的旁瓣而造成频率泄漏,所以一般用旁瓣小的汉明窗。采样时频率分辨...原创 2020-01-12 12:38:30 · 1479 阅读 · 0 评论