TH_NUM的博客

日常积累

python 实现MFCC

语音数据:http://www.voiptroubleshooter.com/open_speech/american.html For this post, I used a 16-bit PCM wav file from [here] import numpy import scip...

2018-06-06 16:52:18

阅读数 5730

评论数 8

基于kaldi、thchs30 的离线中文识别

具体操作细节可查看一下网址: 链接 第一步就是要跑通thchs30的例子,这是清华的中文语音识别例子 第二部做本地识别可查看上面网址,不过有两处不对 1、如下图所示地方要改成final.mat,上面网址的是12.mat 2、如下图所示地方也要改 ac_model=${data_...

2018-06-04 14:43:30

阅读数 860

评论数 0

kaldi在线语音识别bug解决

【问题描述】 使用kaldi工具包进行在线语音识别,识别麦克风输入,输出识别结果。 使用egs/voxforge/online_demo文件夹时,./run.sh –test-mode live输出portaudio failed to open the defalut stream 【解决...

2018-06-04 14:29:42

阅读数 331

评论数 0

kalid 运行thchs30 报错 Caution: the last few frames of the wav file may not be decoded properly.

报出调试信息: Reads in wav file(s) and simulates online decoding. Writes integerized-text and .ali files for WER computation. Utterance segmentation is ...

2018-06-04 13:09:55

阅读数 100

评论数 0

语音信号处理-HMM1

HMM 隐马尔科夫模型 语音是时变的信号,是一个状态转移的过程,另一个过程是特征输出。 一个语音波形序列经过分帧特征提取,得到矢量的序列Y={y1,y2…yn} 建立模型,能够自己产生Y。 短时平稳假设 特征荀烈可以分组若干段(状态),在每个状态内观察的特征是服从相同的 分布的。 ...

2018-03-26 15:17:31

阅读数 329

评论数 0

语音信号处理-动态时间规整DTW

算法简介: 模板匹配过程中的算法,是因为在识别中,同一个人发的同一个音,不仅气持续时间长度随机地改变,而且个因素的相对市场也在改变。 核心思想: 把待识别的而语音的时间轴与参考模板的时间非线性的对齐。 DTW 找出一个归正函数,找到一条(1,1)到(N,M)的最优路径,最优的标准 是...

2018-03-26 14:47:26

阅读数 153

评论数 0

语音信号处理-矢量量化VQ

矢量量化 VQ应用 语音识别 语音波形编码 线性预测编码 VQ 技术 1.先要生成码本,也成为聚类。矢量根绝码本进行最小失真映射的 编码 2.分类 VQ数学描述 假设X是K维向量,把X映射成Y,写作Y=VQ(X) 如何进行训练量化: 距离的定义是关键。 最优是用距离衡量吗?不一...

2018-03-26 14:27:52

阅读数 521

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭