MFA做中文语音文本对齐的教程

本文档详细介绍了如何使用Montreal Forced Aligner(MFA)进行中文语音文本对齐。首先,提供了获取音频和文本数据的来源,特别是THCHS30数据集的使用。接着,阐述了MFA的安装步骤,包括创建CONDA虚拟环境、选择合适的版本以及安装依赖。在安装过程中,作者强调了避免数据路径包含中文以防止错误的重要性。最后,提到了在运行过程中可能遇到的报错情况。
摘要由CSDN通过智能技术生成

最近做项目需要用到中文语音文本对齐,在网上搜罗了一圈,发现目前主流的是用Montreal Forced Aligner(MFA)在做。知乎和C站的一些教程不太全,并且发帖时间较早,导致现在按其教程安装出现多个报错,在经过多个版本的尝试和修复报错问题后,终于成功安装并可以正常使用,特写此贴记录。

一、关于数据源

首先我们做语音本文对齐需要有音频数据和文本数据,音频数据可以自己采集和利用公开的数据库,我自己用的是清华大学中文语音识别数据THCHS30,链接如下:

http://www.openslr.org/18/

该数据集包括的音频数据的.wav格式正是与后面MFA输入格式所适配的,并且该数据集已经包含了我们后续所需要的与音频所对应的同样是用于MFA输入的拼音文本,只不过在后续用作MFA输入时,需要将TRN中的第二行复制,新建文本文件,粘贴内容,保存类型为.lab文件。

更为一般的情况下,我们需要通过某些软件将音频格式转换为.wav格式,

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值