【中文语音文本对齐】-MFA-不需要配环境的傻瓜教程

MEZKUN

已于 2023-11-29 12:38:09 修改

阅读量3.8k

点赞数 34

文章标签：音频 python 机器学习

于 2023-11-28 23:46:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46234384/article/details/134678961

版权

起因

需求

我需要视频帧和声调的对应。数据集应该是视频帧、音频、文本。从文本可以知道每个字的声调。但是不知道哪一帧是哪个字。视频是一句话，需要分成一个字一个字的片段。

理解了一下大概是需要对齐文本与音频，同时数据集中有音频文件，也有与音频文件对应的文字脚本，这个txt文件中还包含拼音大概这样：

调研了一下，这种功能英语叫“forced alignment”，强制对齐。

尝试的方法

SPPAS

网上搜了一下说对齐的准确度极低，根本无法使用

在自己配置环境的过程中很难顶没整成功，放弃了

MFA

是一种HMM+GMM：隐马尔科夫模型+高斯混合模型，最传统的方法（Hidden Markov Model+Gaussian Mixed Model）。可参考L.R. Rabiner "A tutorial on Hidden Markov Models and selected applications in speech recognition” 写得非常详细，需要一定的数学基础，mfa是会使用音素来分析语音数据，将录音中的声音与文本中的音素相匹配

似乎有希望,配置也完成了不过最后的问题是字典没地方找

这里需要拼音-音素的对应也就是字典，官网上不知道为啥g2p没有中文的，生成不了字典，也就没法用，最后总算是解决了，也是通过这种方式解决了这个问题。下面细说

Montreal-Forced-Aligner配置使用

本体

这里其实可以不用像官网Montreal Forced Aligner documentation — Montreal Forced Aligner 3.0.0 documentation

上面一样配置直接下载调用里面的exe就可以了，文件分享连接放在下面，版本是1.1.0挺老的但是能用。

这里是w

最低0.47元/天解锁文章

博客等级

码龄5年

2
原创

34
点赞

43
收藏

9
粉丝

关注

私信

热门文章

最新评论

【JAVA数据结构】优先队列与comparator接口自定义
CSDN-Ada助手: 恭喜你开始博客创作！阅读了你的文章，我对你对于JAVA数据结构中优先队列与comparator接口的理解感到钦佩。你深入浅出地解释了它们的使用方法和自定义过程，让我受益匪浅。希望你能继续保持这种谦虚的态度，因为你的文章让人感到舒适、易懂。下一步，我期待你能进一步探索更多有关JAVA数据结构的主题，并与我们分享更多有趣的知识。继续加油，期待你的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

【JAVA数据结构】优先队列与comparator接口自定义

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。