探索语音转换的新境界:One-shot PPG-Based Voice Conversion
ppg-vcPPG-Based Voice Conversion项目地址:https://gitcode.com/gh_mirrors/pp/ppg-vc
在探索人工智能的前沿,我们发现了一个令人瞩目的开源项目——One-shot Phonetic PosteriorGram(PPG)-Based Voice Conversion(PPG-VC)。这个基于Python的项目不仅引入了一种创新的任何到多声音转换方法,而且还展示了高级序列到序列建模技术的强大潜力。
项目介绍
One-shot PPG-VC 是一个由 TASLP 2021 发表的技术,它提出了一种不平行的声音转换方法,能够进行任何到多种声音的转换。通过结合瓶颈特征提取器(BNE)和序列到序列(seq2seq)合成模块,该模型可以从声谱特性中提取出丰富的、独立于说话人的语言表示,并利用这些表示来重构声谱特性,从而控制生成语音的说话人身份。
图:BNE-Seq2seqMoL 系统架构
项目技术分析
该项目的关键在于采用了一个混合连接主义时间分类-注意力(CTC-Attention)的音素识别器训练的编码器,该编码器含有瓶颈层。然后,利用该识别器获取的BNE,对输入的声谱特征进行处理,生成密集而丰富的语言表示。接着,一个基于多说话人位置相对的注意力seq2seq合成模型被训练以根据说话人表示重建声谱特征。为了解决长序列对齐的困难,模型采用了时间维度下采样以及离散化的混合逻辑斯谛(MoL)注意力机制。
应用场景
One-shot PPG-VC 的应用场景广泛,包括但不限于:
- 娱乐:允许用户将自己的声音实时转换成喜欢的角色或名人的声音。
- 教育:帮助语言学习者体验不同口音的发音。
- 隐私保护:在电话或在线聊天中改变声音,提高安全性。
项目特点
- 任意到多:利用大型语音识别数据集训练的模型,可以实现任意说话人间的声音转换。
- 高效模型:结合了BNE与seq2seq,实现了对长序列的有效处理。
- 高保真度:配合Hifi-GAN V1的高质量音频合成,生成的语音自然度极高。
- 一键式转换:提供预训练模型,只需简单几步即可完成声音转换。
为了让你亲身体验这一创新技术的魅力,项目团队还提供了Barack Obama的参考音频样本,供你尝试将其声音转化为目标声音。
如果你对声音转换充满兴趣,或者需要这种技术用于你的研究或应用,不妨尝试一下One-shot PPG-VC。它是开源的,完全免费,且易于上手。在探索和实验中,你可能会发现更多可能性!
请确保引用项目相关论文,以支持作者们的辛勤工作:
@ARTICLE{liu2021any,
author={Liu, Songxiang and Cao, Yuewen and Wang, Disong and Wu, Xixin and Liu, Xunying and Meng, Helen},
journal={IEEE/ACM Transactions on Audio, Speech, and Language Processing},
title={Any-to-Many Voice Conversion With Location-Relative Sequence-to-Sequence Modeling},
year={2021},
volume={29},
number={},
pages={1717-1728},
doi={10.1109/TASLP.2021.3076867}
}
@inproceedings{Liu2018,
author={Songxiang Liu and Jinghua Zhong and Lifa Sun and Xixin Wu and Xunying Liu and Helen Meng},
title={Voice Conversion Across Arbitrary Speakers Based on a Single Target-Speaker Utterance},
year=2018,
booktitle={Proc. Interspeech 2018},
pages={496--500},
doi={10.21437/Interspeech.2018-1504},
url={http://dx.doi.org/10.21437/Interspeech.2018-1504}
}
开始你的声音之旅,用One-shot PPG-VC解锁语音转换的新世界!
ppg-vcPPG-Based Voice Conversion项目地址:https://gitcode.com/gh_mirrors/pp/ppg-vc