平替heygen的开源音频克隆工具—OpenVoice

最新推荐文章于 2024-04-25 10:07:56 发布

civilpy

最新推荐文章于 2024-04-25 10:07:56 发布

阅读量1k

点赞数 13

分类专栏： 07_其他总结文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baidu_22713341/article/details/135875400

版权

07_其他总结专栏收录该内容

36 篇文章 0 订阅

订阅专栏

截止2024-1-26日，全球范围内语音+唇形实现最佳的应该算是heygen，可惜不但要魔法，还需要银子；那么有没有可以平替的方案，答案是肯定的。

方案1：

采用国内星火大模型训练自己的声音，然后再用下面工具对唇形：

大漠/better_wav2lip (gitee.com)

方案2：

使用开源算法训练声音：
openvoice: OpenVoice，这是一种多功能的即时语音克隆方法，只需要参考说话者的一个简短的音频剪辑即可复制他们的声音并生成多种语言的语音 (gitee.com)

然后再使用方案1中的唇形生成工具。

[17]安装

克隆这个仓库，并运行

conda create -n openvoice python=3.9 conda activate openvoice conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia pip install -r requirements.txt
复制

从这里[18] 下载检查点，并将其解压到 checkpoints 文件夹。

[18] 这里: https://myshell-public-repo-hosting.s3.amazonaws.com/checkpoints_1226.zip

[19]使用方法

1. 灵活的声音风格控制。 请查看 demo_part1.ipynb[20] 以了解如何利用OpenVoice对克隆声音进行灵活的风格控制的示例。

2. 跨语言声音克隆。 请查看 demo_part2.ipynb[21] 以了解MSML训练集中见过或未见过的语言的示例。

3. Gradio 演示。 使用 python -m openvoice_app --share[22] 启动一个本地的Gradio演示。

4. 高级使用。 基础发声模型可以替换为用户喜欢的任何语言和风格的模型。请使用在演示中展示的 se_extractor.get_se 函数提取新基础发声者的音色嵌入。

5. 生成自然语音的提示。 有许多单声道或多声道的TTS方法可以生成自然语音，并且容易获得。通过简单地将基础发声模型替换为你喜欢的模型，你可以将语音的自然度推向你所期望的水平。

[23]路线图

• 推理代码• 音色转换模型• 多风格基础发声模型• 多风格和多语言演示• 其他语言的基础发声模型• 更自然的EN基础发声模型

[24]引用

@article{qin2023openvoice, title={OpenVoice: Versatile Instant Voice Cloning}, author={Qin, Zengyi and Zhao, Wenliang and Yu, Xumin and Sun, Xin}, journal={arXiv preprint arXiv:2312.01479}, year={2023} }
复制

[25]许可

此仓库采用创意共享署名-非商业性4.0国际许可证，禁止商业使用。MyShell保留检测音频是否由OpenVoice生成的能力，无论是否添加了水印。

辅助工具：就是换脸工具2.0，大部分用户没有GPU，所以单张照片生成视频也是可以的。

civilpy：借助各大模型的优点生成原创视频（真人人声）Plus0 赞同 · 0 评论文章编辑

civilpy：AI人脸替换工具离线版v2.01 赞同 · 9 评论文章编辑

关注

13
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
平替heygen的开源音频克隆工具—OpenVoice

有许多单声道或多声道的TTS方法可以生成自然语音，并且容易获得。通过简单地将基础发声模型替换为你喜欢的模型，你可以将语音的自然度推向你所期望的水平。那么有没有可以平替的方案，答案是肯定的。• 推理代码• 音色转换模型• 多风格基础发声模型• 多风格和多语言演示• 其他语言的基础发声模型• 更自然的EN基础发声模型。[20] 以了解如何利用OpenVoice对克隆声音进行灵活的风格控制的示例。基础发声模型可以替换为用户喜欢的任何语言和风格的模型。[21] 以了解MSML训练集中见过或未见过的语言的示例。
复制链接

扫一扫

专栏目录

civilpy CSDN认证博客专家 CSDN认证企业博客

码龄10年

449: 原创

7897: 周排名

5076: 总排名

31万+: 访问

: 等级

7971: 积分

2781: 粉丝

2914: 获赞

26: 评论

2921: 收藏

私信

关注

热门文章

分类专栏

最新评论

Python日志记录：全面指南
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh_CN/latest 使用原生 loggng封装，兼容性和替换性100%,大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、兼容 loguru模式。相比 loguru 有10胜。 pip install nb_log 。
Flask + Bootstrap vs Flask + React/Vue：初学者指南
ha_lydms: 作者的文字总是能够打动我的心灵，让我感到内心温暖和安慰。
Pandas DataFrame行迭代：初学者指南
普通网友: 优质好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Pandas DataFrame行迭代：初学者指南
普通网友: 学到了，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Python日志记录：全面指南
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。