Kaldi脚本分析（1）——数据准备

最新推荐文章于 2024-06-21 01:01:27 发布

Pandora91

最新推荐文章于 2024-06-21 01:01:27 发布

阅读量6.5k

点赞数 3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baidu_36137891/article/details/77848796

版权

本文详细介绍了Kaldi中数据准备的过程，包括数据相关与语言相关两大部分。数据相关涉及音频文件、文本标注、发音标注等，通过`local/thchs-30_data_prep.sh`脚本完成；语言相关涉及词典、语言模型等，通过`utils/prepare_lang.sh`和`utils/format_lm.sh`脚本创建。数据文件需排序，以确保Kaldi脚本正确运行。此外，还讨论了词图（word_graph）与音素图（phone_graph）的构建方法。

摘要由CSDN通过智能技术生成

1 数据准备

数据准备阶段的输出包含两个部分：一部分与“数据”相关，保存在data/train、data/dev、data/test之类的目录下，“数据”部分与特定的录音数据有关，包括训练测试集划分、音频分段、文本标注、发音标注、说话人信息等；另一部分与“语言”相关，保存在data/local、data/dict、data/lang、data/graph目录下，“语言”部分与当前使用的语言本身相关，包括发音词典、音素集合、语言模型等。

如果想用现有的识别系统和语言模型对自己时的录音数据进行解码，那么只需要重写“数据”相关，并准备数据匹配的发音词典。

1.1 “数据”相关

主要涉及脚本：local/thchs-30_data_prep.sh

#data preparation

#generate text, wav.scp, utt2pk,spk2utt

local/thchs-30_data_prep.sh $H$thchs/data_thchs30 || exit 1;

在data文件夹下创建train，dev，test文件夹，分别用于保存训练、验证、测试的初始数据。利用thchs-30_data_prep.sh脚本在每个文件夹中生成以下6个文件：
wav.scp，每个语句的音频文件，索引标识符一般为utterance-id。如果音频存在segment文件，则索引标识符为recording-id，记录每一个分段。
utt2spk，记录每个utterance属于哪个说话人，由utterance-id索引。
spk2utt，记录每个说话人说了那些utterances，由speaker-id索引。
word.txt和text，每个语句的文本标注，由utterance-id索引。这里的文本标注从原始数据集中copy而来，不用保证都在词汇表中，未出现的文本标注将映射到data/lang/oov.txt中。
phone.txt，每个语句的发音标注，由utterance-id索引。发音标注中的音素信息从原始数据集中copy而来。

forxin train dev test; do

echo"cleaning data/$x"

cd$dir/data/$x

rm -rf wav.scp utt2spk spk2utt word.txt phone.txt text

echo"preparing scps and text in data/$x"

fornnin`find $corpus_dir/$x/*.wav | sort -u | xargs -i basename {} .wav`; do

spkid=`echo $nn| awk -F"_" '{print"" $1}'`

spk_char=`echo $spkid| sed 's/\([A-Z]\).*/\1/'`

spk_num=`echo $spkid| sed 's/[A-Z]\([0-9]\)/\1/'`

spkid=$(printf'%s%.2d' "$spk_char" "$spk_num")

utt_num=`echo $nn

最低0.47元/天解锁文章

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Pandora91 CSDN认证博客专家 CSDN认证企业博客

码龄8年

8: 原创

210万+: 周排名

212万+: 总排名

5万+: 访问

: 等级

616: 积分

40: 粉丝

33: 获赞

3: 评论

93: 收藏

私信

关注

热门文章

分类专栏

感想 1篇
深度学习 3篇
linux 3篇
概率论 1篇
c++ 1篇
编程语言 1篇
语音识别 5篇
kaldi 5篇

最新评论

Kaldi脚本分析（6）——解码图构建
乐亦有道: 作者写的挺好的，怎么不接着写了
Kaldi语音识别工具包简介及安装说明
He_yuan_hong: 我有看到python有相关的库然后我想直接命令行pip install安装可是为什么安装失败一直提示我缺少version.hpp文件
Kaldi脚本分析（1）——数据准备
tjh628: 我们的语料只有wav文件和对应的文字内容，每个wav文件只有一句话，对应的文字内容也单独保存在一个txt文件中。怎么才能开始呢？没有拼音、音素这类内容。我的QQ277860961，如蒙指导，感激不尽，必有答谢

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。