kaldi特征和模型空间转换

最新推荐文章于 2024-06-11 10:27:21 发布

Shmily_Young

最新推荐文章于 2024-06-11 10:27:21 发布

阅读量4.1k

点赞数 2

分类专栏：语音识别文章标签：语音识别 kaldi特征和模型空间转换 mllt VTLN

本文链接：https://blog.csdn.net/shmilyforyq/article/details/76807431

版权

博主话：这篇博客是对kaldi官网中Feature and model-space transforms in Kaldi 的翻译，因为不是专业翻译人士，接触kaldi时间也不长，所以难免有纰漏之处，希望读者如果有更好的建议和意见，可以在下面留言，有助于更好的交流，谢谢大家

介绍

Kaldi代码目前支持许多功能和模型空间的转换和预测。特征空间变换和预测以一致的方式被工具（它们在基本上只是矩阵）处理，以下部分涉及到共同点：

通常不具有说话人特征的变换，预测和其他功能操作包括：

通常以说话人自适应方式应用的全局变换是：

接下来讨论使用它们的回归类树和变换：

建立适应的回归树

应用全局线性或仿射特征变换

在特征空间变换和全局投影（不与类相关联的情况下）（例如语音/不发音或回归类）的情况下，我们将它们表示为矩阵。线性变换或投影被表示为一个矩阵，通过将这个矩阵左乘以特征向量，得到变换后的特征是 $ A x $ 。仿射变换或投影以相同的方式表示，但是我们假设1已经被附加到特征向量上，所以变换的特征是 $W \ left [\ begin {array} {c} x \\ 1 \ end {array} \ right]$ ，其中 $W = \ left [A; b \ right]$ ，A和b是线性变换和常数偏移。请注意，该约定与一些文献不同，其中1可能表现为第一维而不是最后一个维度。全局变换和投影通常以Matrix <BaseFloat类型写入单个文件，

在transform-feats中transforms 可以用来表示features。它的语法是

 transform-feats <transform> <input-feats> <output-feats>

其中<input-feats>是一个rspecifier，<output-feats>是一个wspecifier，而<transform>可能是一个rxfilename或rspecifier（请参阅指定表格式：wspecifiers和rspecifiers以及扩展文件名：rxfilenames和wxfilenames）。该程序将根据矩阵的列数是否等于特征维度，或者等于特征维度加上一个值，来确定变换是线性还是仿射。该程序通常用作管道的一部分。一个典型的例子是：

 feats="ark:splice-feats scp:data/train.scp ark:- |
          transform-feats $dir/0.mat ark:- ark:-|"
 some-program some-args "$feats" some-other-args ...

这里，文件0.mat包含单个矩阵。应用说话人特定转换的示例是：

 feats="ark:add-deltas scp:data/train.scp ark:- |
   transform-feats --utt2spk=ark:data/train.utt2spk ark:$dir/0.trans ark:- ark:-|"
 some-program some-args "$feats" some-other-args ...

一个完整的例子将如上所述，但删除了-utt2spk选项。在本例中，文件0.trans将包含由speaker-id索引的变换（例如CMLLR变换），文件数据/ train.utt2spk将具有“utt-id spk-id”形式的行（参见下一节更多的解释）。transform-feats不关心如何估计转换矩阵，它只适用于功能。在经过所有特征之后，它打印出每帧的平均对数行列式。当比较目标函数时，这可以是有用的（这个对数行列式必须被添加到像gmm-align，gmm-acc-stats或gmm-decode-kaldi这样的程序打印出来的每帧可能性上）。如果变换的线性部分A（即忽略偏移项）不是方阵，那么该程序将打印出 $\ frac {1} {2} \ mathbf {logdet}（AA ^ T）$ ，即伪对数行列式。当变换矩阵是MLLT矩阵乘以LDA矩阵时，对检查MLLT估计的收敛性很有用。

说话人独立与每个说话人相对于每个发音匹配

估计变换通常设置为进行特定类型的匹配，即与说话人无关的（特定说话人或语音）。例如，LDA和MLLT / STC变换是与说话人无关的，但是fMLLR变换是特定说话人或特定语音的。估计特定说话人或语音转换的程序默认情况下将按照发音模式工作，但如果提供了-spk2utt选项，则在每个说话人模式下（见下文）。

transform-feats既可以接受与说话人无关也可以接受特定说话人或语音转换。此程序检测第一个参数（变换）是否为rxfilename（请参阅扩展文件名：rxfilenames和wxfilenames）或rspecifier（请参阅指定表格式：wspecifiers和rspecifiers）。如果是前者，则将其视为与说话人无关的变换（例如，包含单个矩阵的文件）。如果后者有两个选择。如果没有提供-utt2spk选项，则将转换视为由utterance id索引的矩阵表。如果提供了一个-utt2spk选项（utt2spk是由包含speaker id的utterance索引的字符串表），那么这个变换被定为由speaker id索引。

发音到说话人和说话人到发音的映射

最低0.47元/天解锁文章

Shmily_Young

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
2
评论
kaldi特征和模型空间转换

kaldi特征和模型空间转换博主话：这篇博客是对kaldi官网中Feature and model-space transforms in Kaldi 的翻译，因为不是专业翻译人士，接触kaldi时间也不长，所以难免有纰漏之处，希望读者如果有更好的建议和意见，可以在下面留言，有助于更好的交流，谢谢大家介绍Kaldi代码目前支持许多功能和模型空间的转换和预
复制链接

扫一扫

专栏目录