语音识别
文章平均质量分 73
Keep828
这个作者很懒,什么都没留下…
展开
-
Kaldi语音识别:基于aidatatang模型实现自制语音数据的识别
aidatatang简介及相关安装、配置等见上一篇文章:Kaldi语音识别:aidatatang_asr开源模型实现中文语音识别详细及遇到的问题【亲自跑通】一、面临的问题用CVTE提供的测试集试验跑通了aidatatang后,需要根据自己的需求来确定问题。1.1 模型运行后测试结果的文本覆盖问题问题描述:如果不对项目文件作修改,每次跑模型都会在同一个输出文本文件中以’a’的方式写入新的识别结果,它并不会每次运行自动清空Result里的文本,这样看起来会比较乱,如下:问题解决:找到写res.原创 2021-11-10 15:46:02 · 3318 阅读 · 0 评论 -
Kaldi语音识别:aidatatang_asr开源模型实现中文语音识别详细及遇到的问题【亲自跑通】
本次项目是基于Kaldi做的中文语音识别,Kaldi是当前最流行的开源语音识别工具。它自带了很多特征提取模块,能提取MFCC/ivector/xvector等语音特征;也自带了很多语音模型代码,可以直接使用或重新训练GMM-HMM等模型;它还支持GPU进行训练。可以说是功能很强大了。更厉害的是,你只需要简单的SHELL编程,就能使用kaldi。kaldi作为一个工具,不需要像库一样进行大量编程,所以使用门槛其实不高。更多的Kaldi相关介绍和安装编译及使用请参考我的这篇博客:语音识别-Kaldi的安装编译.原创 2021-11-09 22:11:15 · 3691 阅读 · 2 评论 -
Kaldi中文语音识别:利用ffmpeg工具实现音频格式转换(m4a转wav,16KHz,16bit)
Kaldi中文语音识别:利用ffmpeg工具实现音频格式转换(m4a转wav,16KHz,16bit)一、前言之所以要做音频格式转换是因为之前配置好的Kaldi环境和CVTE模型需要输入的音频文件要求是wav格式,且要16-bit位深,采样率16000Hz。...转载 2021-11-07 16:10:01 · 1712 阅读 · 0 评论 -
Kaldi中文语音识别:各种开源的已经训练好的语音识别模型
一些开源的已经训练好的语音识别模型最近导师给安排了一个临时的任务,所以在做中文语音识别。一开始想自己先查文献找文章构建网络,后来觉得任务量有点大,遂决定找现成网络再找开源数据集自己训练,然后搞着搞着突然觉得为什么不找一个训练好的模型直接用,然后自己如果有需要再调不会更方便吗,遂开始搞现在的利用已经训练好的开源中文语音识别模型来做语音识别的项目。记录一个网站,里面存了一些开源的已经训练好的语音识别模型。本人是用的其中的CVTE v2模型。下载链接:http://kaldi-asr.org/model原创 2021-11-07 15:04:08 · 6352 阅读 · 2 评论 -
语音识别:在Kaldi上使用CVTE模型-已训练好的开源中文ASR模型
在前一篇文章中,我把Kaldi安装并编译了。相当于把利用Kaldi做语音识别的基本运行环境布置好了。这一篇文章记录我用CVTE开源的kaldi模型来进行语音识别模型的建立和使用。一、CVTE模型简介及下载CVTE Mandarin ModelMandarin TDNN chain models trained on commercial data. The V1 model is deprecated; it is missing files needed to work with the cur.原创 2021-11-07 14:37:21 · 4447 阅读 · 2 评论 -
语音识别:安装编译Kaldi详细过程及遇到的一些问题汇总
语音识别-Kaldi的安装编译实录(Ubuntu环境)本篇博客用于记录一次用开源语音识别(ASR)工具Kaldi来实现中文语音识别功能的经历,记录一路遇到的一些问题。希望本篇文章可以给广大有需要的人提供一些帮助,也以防之后若再做此方向的东西会重蹈覆辙。注意:本文是在Ubuntu64位的虚拟机环境下运行的,通过阅读Kaldi官方的INSTALL文件中指出的,似乎不能在Windows下正常编译使用。Kaldi简介:Kaldi是当前最流行的开源语音识别工具(Toolkit),它使用WFST来实现解码算法原创 2021-11-06 16:52:03 · 13169 阅读 · 3 评论