kaldi特征和模型空间转换

kaldi特征和模型空间转换

博主话:这篇博客是对kaldi官网中Feature and model-space transforms in Kaldi 的翻译,因为不是专业翻译人士,接触kaldi时间也不长,所以难免有纰漏之处,希望读者如果有更好的建议和意见,可以在下面留言,有助于更好的交流,谢谢大家



介绍

Kaldi代码目前支持许多功能和模型空间的转换和预测。特征空间变换和预测以一致的方式被工具(它们在基本上只是矩阵)处理,以下部分涉及到共同点:

通常不具有说话人特征的变换,预测和其他功能操作包括:

通常以说话人自适应方式应用的全局变换是:

接下来讨论使用它们的回归类树和变换:

应用全局线性或仿射特征变换


在特征空间变换和全局投影(不与类相关联的情况下)(例如语音/不发音或回归类)的情况下,我们将它们表示为矩阵。线性变换或投影被表示为一个矩阵,通过将这个矩阵左乘以特征向量,得到变换后的特征是$ A x $。仿射变换或投影以相同的方式表示,但是我们假设1已经被附加到特征向量上,所以变换的特征是$ W \ left [\ begin {array} {c} x \\ 1 \ end {array} \ right] $,其中$ W = \ left [A;  b \ right] $,A和b是线性变换和常数偏移。请注意,该约定与一些文献不同,其中1可能表现为第一维而不是最后一个维度。全局变换和投影通常以Matrix <BaseFloat类型写入单个文件,

transform-feats中transforms 可以用来表示features。它的语法是

 transform-feats <transform> <input-feats> <output-feats>

其中<input-feats>是一个rspecifier,<output-feats>是一个wspecifier,而<transform>可能是一个rxfilename或rspecifier(请参阅指定表格式:wspecifiers和rspecifiers以及扩展文件名:rxfilenames和wxfilenames)。该程序将根据矩阵的列数是否等于特征维度,或者等于特征维度加上一个值,来确定变换是线性还是仿射。该程序通常用作管道的一部分。一个典型的例子是:

 feats="ark:splice-feats scp:data/train.scp ark:- |
          transform-feats $dir/0.mat ark:- ark:-|"
 some-program some-args "$feats" some-other-args ...

这里,文件0.mat包含单个矩阵。应用说话人特定转换的示例是:

 feats="ark:add-deltas scp:data/train.scp ark:- |
   transform-feats --utt2spk=ark:data/train.utt2spk ark:$dir/0.trans ark:- ark:-|"
 some-program some-args "$feats" some-other-args ...

一个完整的例子将如上所述,但删除了-utt2spk选项。在本例中,文件0.trans将包含由speaker-id索引的变换(例如CMLLR变换),文件数据/ train.utt2spk将具有“utt-id spk-id”形式的行(参见下一节更多的解释)。transform-feats不关心如何估计转换矩阵,它只适用于功能。在经过所有特征之后,它打印出每帧的平均对数行列式。当比较目标函数时,这可以是有用的(这个对数行列式必须被添加到像gmm-align,gmm-acc-stats或gmm-decode-kaldi这样的程序打印出来的每帧可能性上)。如果变换的线性部分A(即忽略偏移项)不是方阵,那么该程序将打印出$ \ frac {1} {2} \ mathbf {logdet}(AA ^ T)$,即伪对数行列式。当变换矩阵是MLLT矩阵乘以LDA矩阵时,对检查MLLT估计的收敛性很有用



说话人独立与每个说话人相对于每个发音匹配









估计变换通常设置为进行特定类型的匹配,即与 说话人无关的( 特定说话人或语音)。例如,LDA和MLLT / STC变换是与 说话人无关的,但是fMLLR变换是​​ 特定 说话人或 特定 语音的。估计 特定 说话人或 语音转换的程序默认情况下将按照发音模式工作,但如果提供了-spk2utt选项,则在每个 说话人模式下(见下文)。

transform-feats既可以接受与说话人无关也可以接受特定说话人或语音转换。此程序检测第一个参数(变换)是否为rxfilename(请参阅扩展文件名:rxfilenames和wxfilenames)或rspecifier(请参阅指定表格式:wspecifiers和rspecifiers)。如果是前者,则将其视为与说话人无关的变换(例如,包含单个矩阵的文件)。如果后者有两个选择。如果没有提供-utt2spk选项,则将转换视为由utterance id索引的矩阵表。如果提供了一个-utt2spk选项(utt2spk是由包含speaker id的utterance索引的字符串表),那么这个变换被定为由speaker id索引。


发音到说话人和说话人到发音的映射


  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值