训练过程acc_Kaldi的三音子模型训练(源码解析)

本文介绍了Kaldi中三音子模型的训练过程,作为对单音子模型的优化,三音子模型考虑了上下文相关性。以thchs30为例,详细解析了训练所需的文件、功能、输入输出以及关键的源码部分,涉及统计量的累积和决策树构建。
摘要由CSDN通过智能技术生成

单音子模型的假设是一个音素的实际发音与其左右的音素无关。这个假设与实际并不符合。由于单音子模型过于简单,识别结果不能达到最好,因此需要继续优化升级。就此引入多音子的模型。最为熟悉的就是三音子模型,即上下文相关的声学模型。以kaldi的thchs30为例。

作者 | AI大道理

来源 | AI大道理

63c0a28f6d9f9ab065df05ef756b9d5e.gif 41fc210bfc0163a3510dfb2eddb23d7a.png总 过 程 99d73dbb5aa784289d74e64a8ada877c.png

a3e6db8eab50eb1c2731365baf420e40.png

41fc210bfc0163a3510dfb2eddb23d7a.png三音子模型训练 99d73dbb5aa784289d74e64a8ada877c.png

80710568f2dff251a4df59f9c6d93a60.png

   train_deltas.sh 源码解析:

aea7fd535ffac94d49d5d446eea54ba6.png

64ac189d0efec326b48c185a27c63f69.png

需要的文件:

$alidir/final.mdl $alidir/ali.1.gz $data/feats.scp $lang/phones.txt

  过程

4dd284174e0637cbe3ece56b3721ea0c.png

41fc210bfc0163a3510dfb2eddb23d7a.png累计相关统计量 99d73dbb5aa784289d74e64a8ada877c.png

78f1d788e08315d4fd3cac4779b6e1a5.png

b451c1375c03eb0702376629d3443f81.png

adb22e3d520a91bd92e30df3f94fac90.png

41fc210bfc0163a3510dfb2eddb23d7a.pngacc-tree-stats.cc 99d73dbb5aa784289d74e64a8ada877c.png

功能:为决策树的构建累积相关的统计量。

输入:声学模型、特征、对齐

输出:统计量。

  源码解析

e5a2257b5dd8d7a53c5831f3754c51b9.png

422b843202c7fe95b3f4220805d89b6c.png

3fe23b0c39761ab6c0e7602a356f6b17.png

4be99151f9a4a0a50ea0450d57d51477.png

07ec1e8928da31fb6abfbf90251e4fef.png

  过程

64f8ca53b9a1672f2814f6579605ae28.png

  源码解析:

1)数据结构

std::map tree_stats

f26e509cdd994455b0e30c56c230ad16.png

10766fc71f16f35d1a9ac60503948585.png

a58d7dcd0c75552f4e5c60fc0d16f2bf.png

那么如何确定以b为中间音素的三音子的第二个状态下面挂着的pdf-id呢?pdf-2怎么得到?

3afb2d51eabd1e556465b840a4de7c7b.png

ee60da8f45a576963a3dfab0cc2c2cee.png

e73d6a587d1d397ef79d9604fee142e7.png

函数声明:

a4984daa9d8c00c39b8261b3b51acac9.png

函数过程:

8ee1aec6fae7c5abb3b84dc043de63b1.png

SplitToPhones()

23e574ab0e322b06855c08976f0f6a38.png

3)BuildTreeStatsType

构建决策树所用到的统计量可以表示成:

typedef std::vector<:pair clusterable> >

BuildTreeStatsType;

41fc210bfc0163a3510dfb2eddb23d7a.pngsum-tree-stats.cc 99d73dbb5aa784289d74e64a8ada877c.png

功能:语音上下文树构建的总和统计。

41fc210bfc0163a3510dfb2eddb23d7a.png总 结 99d73dbb5aa784289d74e64a8ada877c.png

71772e39dd91923a117dd4f56208e7bb.png

023e647f50bb5e5860c4e82a5d725fb1.png扫码关注我们带你了解更多干货内容快速掌握一手学习资料 2eb768e541d9426ede14d3c2a8cb3840.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值