![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
语音识别
文章平均质量分 89
Squid _
这个作者很懒,什么都没留下…
展开
-
torchAudio中wav2vec2的源码(三)——transformer-encoder的构建
torchAudio中wav2vec2的源码(三)——transformer-encoder构建原创 2022-04-12 23:38:43 · 2423 阅读 · 5 评论 -
探究torchAudio中wav2vec2的源码(二)——特征提取
探究torchAudio中wav2vec2的源码(二)——特征提取原创 2022-04-06 11:55:27 · 6614 阅读 · 4 评论 -
探究torchAudio中wav2vec2的源码(一)
探究torchAudio中wav2vec2的源码(一)原创 2022-03-30 22:58:21 · 2195 阅读 · 3 评论 -
运行torchAudio下的wav2vec2.0样例
torchAudio下运行wav2vec2.0原创 2022-03-29 20:42:29 · 8255 阅读 · 7 评论 -
基于矢量量化(VQ)的说话人识别(python)
最近用python做了VQLBG的说话人识别实验,记录一下。若是有错恳请指出。矢量量化的基本原理将若干个标量数据组成一个矢量(或者是从一帧语音数据中提取的特征矢量)在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量。矢量量化有效地应用了矢量中各元素之间的相关性,因此可以比标量量化有更好的压缩效果。设有NNN个KKK维特征矢量X={X1,X2,⋯ ,XN}X=\{X_1,X_2,\cdots,X_N\}X={X1,X2,⋯,XN}(XXX在KKK维欧几里德空间RKR^KRK中),其原创 2021-12-23 21:29:59 · 4816 阅读 · 0 评论 -
语音识别——语言模型
本博客主要是摘写洪青阳教授的《语言识别-原理与应用》的笔记,不足之处还请谅解。语音识别为:根据输入的观察值序列O,找到最可能的词序列W^\hat{W}W^。按照贝叶斯准则,识别任务可做如下转化:W^=argmaxW P(W∣O)=arg maxP(W)P(O∣W)P(O)\hat{W}={\underset {W}{\operatorname {arg max} }}\,P(W|O)=\arg\,\max\frac{P(W)P(O|W)}{P(O)}W^=WargmaxP(W∣O)=arg原创 2021-12-09 17:19:57 · 6985 阅读 · 1 评论 -
DTW算法
该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法,在孤立词识别中能起到有效的作用。作用:把两段不同长度的语音在时间轴上进行了对齐。参数主要分为参考模板和测试模板参考模板R可表示为:{R(1),R(2),...,R(m),...,R(M)}\{R(1),R(2),...,R(m),...,R(M)\}{R(1),R(2),...,R(m),...,R(M)},m为训练语音帧的时序标号,m=1为起点语音帧,m=M为终点语音帧,因此M为该模板所包含的语音原创 2021-11-30 17:13:05 · 1828 阅读 · 0 评论 -
语音识别-音素的上下文建模
人的发音其实是个渐变过程,在从一个音素转向另一个音素时,会存在协同发音现象,包括同一个音节内部和不同音节的过渡。本博客主要看洪青阳教授写的《语音识别:原理与应用》而写的笔记。协同发音协同发音是指一个音受前后相邻音影响而发生变化。如”好好学习“的“好好”。因此同一个音素在不同位置,发音差异可能较大。中文: 好 好音节: hao3 hao3音素:h ao3 h ao3每个字都是一个音节,音节内部有发音衔接,音节之间也是有衔接的,其体现就是在语谱图过渡阶段存在交叉。上下文建模原创 2021-10-29 13:40:33 · 2571 阅读 · 0 评论 -
HMM(隐马尔可夫)笔记
(模板匹配)DTW主要作用:把两段不同长度的语音在时间轴上进行了对齐。DTW不足:DTW本质上是一种模板匹配技术,只能进行简单的匹配,而且其参数简单,无法对语音信号的多样性建模,只适用于特定人的小词汇量的语音识别。事实上,人说话不光是时变过程,频域分布也在变化,随机性很大。不同的人所同样的话,语音也存在较大差异。因此语音识别实际上是一个复杂的问题。双重随机过程人的发音包含双重随机过程。想说什么不确定:即说话内容,具体包含哪些符号(音素或字词)?怎么说不确定:同样内容发音的观察值差异很大。说原创 2021-10-09 13:47:56 · 717 阅读 · 0 评论 -
Mel频率倒谱系数-MFCC
MFCC:Mel频率倒谱系数的缩写。目的:模拟人耳对不同频率语音的感知Mel频率和Hz频率的关系人类对不同频率语音有不同的感知能力:1kHz以下,与频率成线性关系。1kHz以上,与频率成对数关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。由于Mel频率与Hz频率之间非线性的对应关系,使得MFCC随着频率的提高,其计算精度随之下降。因此,在应用中常常只使用低频MFCC,而丢弃中高频MFCC。Fmel=2595lg(1+f/700)F_{mel}=原创 2021-10-06 22:24:12 · 3196 阅读 · 1 评论 -
线性预测编码(LPC)笔记
概念:一个语音的抽样能够用过去若干个语音抽样(模板)的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间差值的平方和达到最小,能够决定唯一的一组预测系数。用于语音分析与合成,可估计许多语音基本参数:基音、共振峰、频谱、声道截面积等。语音信号是由一个激励信号e(k)经过一个时变的全极点滤波器产生的。生成语音信号s(k)表示为:s(n)=∑i=1pais(n−i)+e(n)s(n)=\sum_{i=1}^pa_is(n-i)+e(n)s(n)=i=1∑pais(n−i)+e(n)其中,激励信号e原创 2021-09-17 22:10:52 · 2516 阅读 · 0 评论