speech recognition
文章平均质量分 91
栋次大次
一只平平无奇的小飞猪,努力搬砖。研究方向:语音识别,声纹识别
展开
-
[kaldi] alignment 对齐 (音素级和词级)
kaldi 对齐算法,包括音素级和词级原创 2022-09-18 18:04:38 · 1300 阅读 · 0 评论 -
通俗理解交叉熵和KL散度(包括标签平滑的pytorch实现)
本文介绍了熵、信息量、交叉熵、KL散度,通俗易懂。并给出pytorch中torch.nn.CrossEntropyLoss,NLLLoss(),torch.nn.KLDivLoss的使用。利用pytorch实现了一个基于标签平滑的KL损失。原创 2022-02-24 22:24:54 · 2592 阅读 · 4 评论 -
n-gram语言模型LM
n-gram语言模型,平滑算法详解原创 2021-06-05 20:09:55 · 1468 阅读 · 5 评论 -
基于GMM-HMM的语音识别系统
本文介绍基于GMM-HMM的语音识别系统,包括:孤立词、单音素、三音素识别系统。原创 2021-05-28 17:11:58 · 3481 阅读 · 8 评论 -
隐马尔科夫模型HMM详解(2)——python实现
隐马尔科夫模型学习算法总结,请先阅读上一篇文章。附HMM的python实现代码,边读代码边学习,更清晰。感谢阅读!原创 2021-05-25 19:25:57 · 1261 阅读 · 2 评论 -
隐马尔科夫模型HMM详解(1)
隐马尔科夫模型HMM的详细讲解,提供对应的python代码。原创 2021-05-24 21:07:35 · 1370 阅读 · 2 评论 -
GMM\EM算法详解——附0-9孤立词识别demo(python实现)
GMM和EM算法详解,有基本的公式推导过程。附0-9孤立词识别(python),代码整体介绍:训练--对每一个GMM使用预料进行五次迭代训练;测试--对每条测试预料求每一个GMM模型下的似然,求argmax得到似然最大的模型最为输出结果,并和标签进行对比求正确率。原创 2021-05-23 20:52:38 · 2267 阅读 · 2 评论 -
语音信号特征处理--Fbank\MFCC
基本的数字信号处理知识,Fbank和MFCC过程及python实现原创 2021-05-22 20:46:30 · 4200 阅读 · 15 评论 -
warp-ctc源码安装
warp-ctc是可以在CPU和GPU上实现并行计算CTCLoss的开源库,现在支持pytroch和tensorflow的调用。安装过程和wrap-transducer相似,下面记录下过程和错误解决方法。本文是在ubuntu18.04的系统上进行的。warp-ctc下载地址源码编译warp-transducer首先获取warp-ctc的代码:git clone https://github.com/espnet/warp-ctc.gitcd warp-ctc创建一个build文件夹:mkd原创 2020-09-12 11:22:43 · 2267 阅读 · 9 评论 -
warp-transducer源码安装,warprnnt_pytorch生成
warp-transducer是可以在CPU和GPU上实现并行RNN-transducer的开源库,现在支持pytroch和tensorflow的调用,主要用来计算RNNTLoss,本文是在ubuntu18.04的系统上进行的。warp-transducer下载地址源码编译warp-transducer首先获取warp-transducer的代码:git clone https://gi...原创 2020-02-22 21:02:03 · 5029 阅读 · 2 评论 -
CTC算法讲解
目录CTC是什么,有什么用?CTC基本原理CTC中的前向后向算法CTC预测CTC的性质CTC是什么,有什么用?CTC(Connectionist Temporal Classification),用来解决输入序列和输出序列难以一一对应的问题。在语音识别中,我们希望音频中的音素和翻译后的字符可以一一对应。但是对齐是一个很困难的事,有人说话快,有人说话慢,每个人说话快慢不同,手动对齐太耗时。在...转载 2020-01-12 18:21:11 · 1620 阅读 · 0 评论 -
LAS语音识别框架发展简述
LAS识别框架发展简述)LAS模型模型综述Listener部分attend-spelllearningdecoding and rescoringLAS模型的缺点即改进方法缺点改进方法相关论文进展LAS模型模型综述工作流程:将语音信号的特征输入到双向RNN中(encoder部分,即Listen)做attention,在不同的时刻关注输入的不同部分(decoder部分)解码Li...原创 2019-12-16 23:12:44 · 6267 阅读 · 3 评论