语音识别
文章平均质量分 88
ASR
BarbaraChow
关注语音 & 语言
展开
-
语音识别之Kaldi:神经网络实战
今天学习基于神经网络的语音识别。原创 2022-12-08 22:57:55 · 2336 阅读 · 0 评论 -
语音识别之Kaldi:学习GMM-HMM
kaldi语音识别理论与实践课程学习。前面的博客介绍了语音识别的基础知识及原理。现在开始学习实战。以Kaldi框架为基础。Kaldi是一个有全套的语音识别代码的工具,由Dan Povey博士和捷克的BUT大学联合开发,最早发布于2011年,底层代码使用C++编写,接口采用shell和python,覆盖了统计模型和深度学习方法,操作灵活,易于扩展,开发者更为活跃。语音识别流程:目前开源的语料库有:Kaldi官网:KALDI里面有详细的文档。下载Kaldi:https://github.com/du-ud/原创 2022-12-07 21:56:41 · 2098 阅读 · 1 评论 -
语音识别入门
语音识别: 将语音识别成文本。微信上的语音转为文字功能。还有一些语音助手,Siri,Cortana,小度,小爱同学等等。语音是声音的一种。声音是由振动产生的,通过空气传播到达耳朵,空气的某些地方稠密,有些稀疏,不断变化,声波到达耳朵。振动的快慢,就是频率。人耳能听到的频率范围:20Hz-20000Hz。语音是种特殊的声音,为什么呢?因为它是人发出的声音,里面包含了丰富的信息。其他声音不含任何信息的叫作噪音。语音是高度结构化的振动。总的来说,它是一种既随机,又具有极强的规律性,结构性的信号。语音是极至原创 2020-10-14 21:26:32 · 1907 阅读 · 0 评论 -
噪声鲁棒语音识别
噪声鲁棒语音识别语音识别的噪声鲁棒性:指在输入语音质量退化,语音的音素特性、分割特性或声学特性在训练和测试环境中不同时,语音识别系统仍保持较高识别率的性质。基于统计模型的语音识别系统中,训练的数据必须具有充分的代表性。当识别系统应用于噪声环境时,纯净的训练数据与被噪声污染的测试数据之间存在着不匹配,识别系统在噪声环境下的性能下降主要归因于这种不匹配。噪声鲁棒语音识别的研究目标就是消除或减少这种不匹配的影响,使识别系统的性能尽量接近匹配条件下的性能。由噪声引起的训练和测试的不匹配可以从信号空间、特转载 2020-10-05 19:56:31 · 2923 阅读 · 0 评论 -
ASR常见评价指标
WER(词错误率),SER(句错误率),CER(字错误率)为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换(substitutions),删除(Deletions),或者插入(Insertions)某些词。这些插入,替换,删除的词的总个数,除以标准的词序列中词的个数的百分比,即为WER,其计算公式如下所示:注意:因为有插入词,所以WER有可能大于100%!例:如下图所示,第一行为标准的词序列,第二行为识别出来的词序列目标词序列中共有13个词,增加词3个,删除词1个,替换词6个,则W转载 2020-09-24 10:45:18 · 4728 阅读 · 0 评论 -
传统语音识别GMM和HMM理论
语音信号来源:计算机中采用PCM编码按时间序列保存的一连串数据。一般为.wav文件,可以通过各种录音软件录制,录制是包括三个参数:采样率fs,一般8000Hz 115200Hz 等;bits,即每个采样点用几个二进制保存;通道:单通道,双通道等。预处理:分帧:非平稳信号,分帧后每段看作短时平稳,即可用FFT获得频率分布。帧长的选择:一帧要包含几个周期。加窗:让一帧信号的幅度在两端渐变到 0。渐变对傅里叶变换有好处,可以提高变换结果(即频谱)的分辨率。加窗的代价是一帧信号两端的部分被削弱了,弥补转载 2020-09-21 11:22:04 · 1752 阅读 · 1 评论 -
声谱图,梅尔语谱,倒谱,梅尔倒谱系数(超详细)
语音特征提取。转载 2020-09-03 11:57:22 · 30260 阅读 · 6 评论 -
初学语音识别
@[初学librosa]LibrosaLibrosa是一个用于音频、音乐分析、处理的python工具包,一些常见的时频处理、特征提取、绘制声音图形等功能应有尽有,功能十分强大。librosa 库包含了如下子模块:1.librosa.beat :用于估计速率和检测节拍。2.librosa.core: 核心功能包括从磁盘加载音频、计算各种声谱图表示以及用于音乐分析的各种常用工具。为了方便,这个子模块中的所有功能都可以从顶级librosa.*名称空间 *直接访问。3. librosa.decompos转载 2020-09-01 11:14:19 · 975 阅读 · 0 评论