我花了二周时间整合了一个数字人合成系统

最新推荐文章于 2024-09-19 20:55:28 发布

Python_金钱豹

最新推荐文章于 2024-09-19 20:55:28 发布

阅读量917

点赞数 28

文章标签： transformer python neo4j 人工智能机器人

本文链接：https://blog.csdn.net/Python_cocola/article/details/142067862

版权

先说下为什么做这个系统。当前市面上有不少的数字人合成系统，但是他们的做法基本上都是缝合了若干个开源系统。

比如数字人形象生成整合了

Easy- wav2lip，Wav2lip-HD，MuseTalk，DH-Live等系统。

要知道目前开源的数字形象系统没一个能商用的，整合再多的也无济于事，而且每一个系统的资源开销占用都超出了普通电脑的负载能力，更别说一下子整合这么多系统。

这种做法不仅对用户不友好，对开发者来说也不是一件容易的事情，因为每个系统都有自己独立的依赖版本，整合不同的系统面临相当大的改造成本，开发者必须保证不同系统使用的依赖包能兼容，为此，可能不得不大幅度修改源码，这不是一般人能做得了的。所以，我相信，这类整合系统的做法只能是采用虚拟隔离，即创建了多个虚拟环境，这个做法虽然减轻了开发者的负担，但是把复杂和不灵活留给了用户。

那我们该怎么做呢？

首先，我们整合了基本能商用的高清版本的wav2lip，而不是采用其他开源的系统，刚才说了，无论你用哪个开源的数字形象系统，其效果也只是玩具而已。

其次，声音克隆系统，我整合了目前效果还算不错的GPTSovits。

这两个系统虽然很多地方存在包的冲突，但是为了避免多虚拟环境带来的额外开销，我将二者代码重写，整合成一个独立的系统，提供更易于用户使用的交互界面，不仅大大减少了系统的总大小，而且无论是在用户使用还是系统开发上都更灵活。

整个系统开发开发下来，整整耗费了单人2周的时间精力，来看看我整合后的系统功能截图：

从tab上看，它支持声音复刻和视频合成，其中视频合成支持批量合成：

在声音复刻方面，它支持中文声音复刻和多语种声音复刻，包括中日英韩粤语。

在视频合成方面，支持语音驱动视频，也支持文字驱动视频：

最后是重头戏：批量合成，它支持导入批量文本文件，自动生成语音并且合成数字人，这是真正提高生产力的功能。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述