对齐工具MFA

最新推荐文章于 2025-02-09 14:18:00 发布

GaryGao99

最新推荐文章于 2025-02-09 14:18:00 发布

阅读量3.2k

点赞数 1

分类专栏： TTS 语音文章标签：语音识别人工智能

本文链接：https://blog.csdn.net/Mrhiuser/article/details/125142641

版权

语音同时被 2 个专栏收录

4 篇文章

订阅专栏

TTS

2 篇文章

订阅专栏

本文详细介绍了Montreal Forced Aligner (MFA)的安装步骤，数据格式要求，包括预训练模型和词典下载，对齐与训练命令，以及常见问题与调试技巧。特别强调了MFA的特性和与Kaldi的关系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MFA（Montreal Forced Aligner）是一种forced alignment工具。MFA底层是使用了kaldi工具，相对于其它的工具MFA使用triphone acoustic model来建模上下文信息，同时包含了和说话人相关的特征，因此可以适应不同的说话人。MFA具有可训练性 (trainability) ，即可由用户自己在新数据上训练acoustic model。

1、MFA安装

MFA有多种安装方式，可参考MFA installation。mfa需要kaldi，kaldi安装参考kaldi安装

2、MFA使用

2.1、查看MFA版本

mfa version

2.2 数据格式

对齐数据或者训练模型需要的数据需要按照如下格式：

+-- prosodylab_corpus_directory
|   +-- speaker1
|           --- recording1.wav
|           --- recording1.lab
|           --- recording2.wav
|           --- recording2.lab
|   +-- speaker2
|           --- recording3.wav
|           --- recording3.lab
|       --- ...

数据目录下每个说话人对应一个目录，每个说话人目录下一个语音数据wav文件对应一个文本数据文件lab，文件名除了扩展名之外其他的部分要一一对应。

2.3 、下载预训练模型和词典

MFA提供了已经预先训练好的模型以及词典，下载地址。

词典下载地址

模型下载地址

一种方式是手动下载，另外是使用mfa命令下载，如下以中文为例：

#下载模型
mfa models download acoustic mandarin_mfa
#下载词典
mfa models download dictionary mandarin_mfa
mfa models download dictionary mandarin_pinyin

2.4、对齐命令

mfa align
    corpus_directory # 对齐数据
    dictionary_path # 词典
    acoustic_model_path # 声学模型
    output_directory # 输出对齐结果
    --temporary_directory #指定临时目录，存储中间结果
    --disable_mp # 关闭多进程，默认是False

对齐输出结果为TextGrid格式。

2.5、训练模型

mfa train
    corpus_directory # 数据
    dictionary_path # 词典
    output_directory # 输出模型
    --temporary_directory #指定临时目录，存储中间结果
    --disable_mp # 关闭多进程，默认是False