通过wav文件和text文件训练出phoneme文件的过程

最新推荐文章于 2024-05-08 12:39:13 发布

贾大帅

最新推荐文章于 2024-05-08 12:39:13 发布

阅读量811

点赞数 1

分类专栏： python

本文链接：https://blog.csdn.net/weixin_40128276/article/details/79248300

版权

python 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

环境：python2.7和python3.6

最近训练的一个神经网络需要wav文件和phn文件作为自己输入。

所有的数据库中都有wav文件，但是phoneme文件却不是每个数据库都有。

TIMIT数据库中就PHN文件。

先贴个PHN文件的图。

SX127.PHN

再看一下这句话的文本。

后面就是这句话没问题，0-24679肯定就是时间了。

我们看到时间是1.543，因为是16000的采样率，所以一共采24672个点，和24679基本一致（差几个估计是时间精度不够）。

至此，PHN文件我们已经非常了解了。

start_time end_time phoneme

应该是这个格式。

接下来我们先了解一下一个包：glob

glob模块是最简单的模块之一，内容非常少。用它可以查找符合特定规则的文件路径名。查找文件只用到三个匹配符："*", "?", "[]"。"*"匹配0个或多个字符；"?"匹配单个字符；"[]"匹配指定范围内的字符，如：[0-9]匹配数字。

用法也很简单。

import glob

wav_file = glob.glob('data_path')

举个例子：

import glob
wav_file = glob.glob('./train/*/*/*.wav')

用的时候要注意下相对路径和绝对路径。

这样我们就得到了数据库中所有wav的名字了，被存在一个list中。

接下来学习一个alienment的软件，基于kaldi做的。

montreal-forced-aligner。

这是他们的git：https://github.com/MontrealCorpusTools/Montreal-Forced-Aligner

这是他们的官方文档：http://montreal-forced-aligner.readthedocs.io/en/latest/

其实这个工具非常好用，因为我们是汉字的对齐，所以就不使用他们的预训练模型了。

我们直接使用release版本。

解压后有3个文件夹，其中的bin里面就是我们需要的程序。

看两个简单的命令来了解一下。

bin/mfa_align /path/to/librispeech/dataset /path/to/librispeech/lexicon.txt english ~/Documents/aligned_librispeech

这个是直接对齐的命令，第一个参数是你的数据库，第二个参数是字典，第三个参数是你使用的模型。

bin/mfa_train_and_align  /path/to/librispeech/dataset /path/to/librispeech/lexicon.txt ~/Documents/aligned_librispeech

这个是训练模型命令，第一个参数是数据库，第二个但是字典，第三个是你保存模型的位置。

下面我们继续学习一个分词工具包：jieba

因为我们要进行中文的txt2phn。

所以我们不得不面临分词的问题，接下来我们继续来看看如何中文分词。

python有个很好的工具包jieba

安装非常容易。python2或3均可。

pip install jieba

这个包也是非常的简单，Git上有详细说明，这里就不赘述了。

用这个工具把文本全部分割好就可以对齐了。

后面的过程就不赘述了，大概就是分割-对齐-最后形成相同格式。。。

可能有点烂尾，如果也在做相同过程碰到了一些问题可以给我留言，Emm

贾大帅

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
通过wav文件和text文件训练出phoneme文件的过程

环境：python2.7和python3.6最近训练的一个神经网络需要wav文件和phn文件作为自己输入。所有的数据库中都有wav文件，但是phoneme文件却不是每个数据库都有。TIMIT数据库中就PHN文件。先贴个PHN文件的图。SX127.PHN再看一下这句话的文本。后面就是这句话没问题，0-24679肯定就是时间了。我们看到时间是
复制链接

扫一扫

专栏目录