探索语音转换的新境界：One-shot PPG-Based Voice Conversion

芮奕滢Kirby

于 2024-06-09 09:32:05 发布

阅读量477

点赞数 22

本文链接：https://blog.csdn.net/gitblog_00068/article/details/139555164

版权

探索语音转换的新境界：One-shot PPG-Based Voice Conversion

ppg-vcPPG-Based Voice Conversion项目地址:https://gitcode.com/gh_mirrors/pp/ppg-vc

在探索人工智能的前沿，我们发现了一个令人瞩目的开源项目——One-shot Phonetic PosteriorGram（PPG）-Based Voice Conversion（PPG-VC）。这个基于Python的项目不仅引入了一种创新的任何到多声音转换方法，而且还展示了高级序列到序列建模技术的强大潜力。

项目介绍

One-shot PPG-VC 是一个由 TASLP 2021 发表的技术，它提出了一种不平行的声音转换方法，能够进行任何到多种声音的转换。通过结合瓶颈特征提取器（BNE）和序列到序列（seq2seq）合成模块，该模型可以从声谱特性中提取出丰富的、独立于说话人的语言表示，并利用这些表示来重构声谱特性，从而控制生成语音的说话人身份。

系统结构图 图：BNE-Seq2seqMoL 系统架构

项目技术分析

该项目的关键在于采用了一个混合连接主义时间分类-注意力（CTC-Attention）的音素识别器训练的编码器，该编码器含有瓶颈层。然后，利用该识别器获取的BNE，对输入的声谱特征进行处理，生成密集而丰富的语言表示。接着，一个基于多说话人位置相对的注意力seq2seq合成模型被训练以根据说话人表示重建声谱特征。为了解决长序列对齐的困难，模型采用了时间维度下采样以及离散化的混合逻辑斯谛（MoL）注意力机制。

应用场景

One-shot PPG-VC 的应用场景广泛，包括但不限于：

娱乐：允许用户将自己的声音实时转换成喜欢的角色或名人的声音。
教育：帮助语言学习者体验不同口音的发音。
隐私保护：在电话或在线聊天中改变声音，提高安全性。

项目特点

任意到多：利用大型语音识别数据集训练的模型，可以实现任意说话人间的声音转换。
高效模型：结合了BNE与seq2seq，实现了对长序列的有效处理。
高保真度：配合Hifi-GAN V1的高质量音频合成，生成的语音自然度极高。
一键式转换：提供预训练模型，只需简单几步即可完成声音转换。

为了让你亲身体验这一创新技术的魅力，项目团队还提供了Barack Obama的参考音频样本，供你尝试将其声音转化为目标声音。

如果你对声音转换充满兴趣，或者需要这种技术用于你的研究或应用，不妨尝试一下One-shot PPG-VC。它是开源的，完全免费，且易于上手。在探索和实验中，你可能会发现更多可能性！

请确保引用项目相关论文，以支持作者们的辛勤工作：

@ARTICLE{liu2021any,
  author={Liu, Songxiang and Cao, Yuewen and Wang, Disong and Wu, Xixin and Liu, Xunying and Meng, Helen},
  journal={IEEE/ACM Transactions on Audio, Speech, and Language Processing}, 
  title={Any-to-Many Voice Conversion With Location-Relative Sequence-to-Sequence Modeling}, 
  year={2021},
  volume={29},
  number={},
  pages={1717-1728},
  doi={10.1109/TASLP.2021.3076867}
}

@inproceedings{Liu2018,
  author={Songxiang Liu and Jinghua Zhong and Lifa Sun and Xixin Wu and Xunying Liu and Helen Meng},
  title={Voice Conversion Across Arbitrary Speakers Based on a Single Target-Speaker Utterance},
  year=2018,
  booktitle={Proc. Interspeech 2018},
  pages={496--500},
  doi={10.21437/Interspeech.2018-1504},
  url={http://dx.doi.org/10.21437/Interspeech.2018-1504}
}

开始你的声音之旅，用One-shot PPG-VC解锁语音转换的新世界！

ppg-vcPPG-Based Voice Conversion项目地址:https://gitcode.com/gh_mirrors/pp/ppg-vc