目录
大家好,我是小奇,一名热衷于分享AI副业项目的普通博主。不管你是AI小白还是老手,我都能帮你轻松上手,用AI技术赚钱。想多赚点?跟我来,一起探索AI副业,实现财务自由!记得关注我哦!
《黑神话:悟空》这款游戏已经火了一段时间了,我也购买了游戏并且玩上了一段时间,最近几天已经开始二周目了,不得不说这款游戏是真的好玩,无论是画质还是操作都称得上是一流水平了。
最近在B站刷到这样的视频,利用AI声音克隆的方式训练悟空的语音,然后开始二创的整活视频,瞬间爆火,几天时间就已经一百多万播放量了,十几万点赞!!!不得不说,这位博主整活起来是真的很会抓住观众的眼球。
一、案例分析
「 那么问题来了,这类型的账号为什么这么火呢?」
就是这种视频因为听起来像真的一样,让人觉得好玩又新鲜,而且还能逗人笑,所以大家都爱看,看了还愿意分享给朋友,这样一来,视频就火了。而且,这种技术还让人觉得很酷,因为它展示了科技的力量,让不可能变成了可能。
「 那么问题又来了,这类型的账号该怎么变现呢?」
说到变现呢,可以投稿到B站、youtube、抖音西瓜视频上,利用中视频计划来进行流量分成。也可以通过卖游戏机、显卡,或者是其他游戏的广告。
「 那么问题又又又来了,如何制作这类型的视频?」
制作这类型的视频呢,可以使用前段时间比较流行的AI声音克隆工具GPT-SoVits。GPT-SoVITS 是个超酷的声音克隆工具,它能用很少的样本就能模仿你的声音。
比如说,你只需要录一分钟的音,或者至少五秒钟,它就能快速学会你的声音特点。如果你想偷懒,甚至可以直接用别人的录音来控制合成音频的情感、音色和语速,而不需要自己训练。
这个工具最近还升级到了 V2 版本,它现在能处理更糟糕的音质,让合成的声音听起来更清晰。而且,它背后的训练数据也大大增加,这意味着你不需要太多数据就能让声音听起来更自然。
此外,GPT-SoVITS 现在支持中文、日语、英语、韩语和粤语,你甚至可以用一种语言的录音来生成另一种语言的语音。
最后捏,只需要将生成好的音频对应上视频的口吻,在剪辑软件上适当的剪辑即可。接下来我将手把手教你如何使用这款开源的软件。
二、本地制作教程
2.1、电脑环境要求
要用这个软件,你得有个给力的显卡,最好是 NVIDIA 的,而且得支持 CUDA。并且得有个至少 6GB 显存的显卡。我的电脑就是16GB的话已经够用的了。操作系统方面,Windows 或 Linux 都行,如果你是苹果用户,那得是 macOS 14 或更高版本的系统。如果你的电脑不够给力,别担心,可以用云服务。(详细看第三点)下面我会用云服务的例子来说明怎么用这个软件。
2.2、安装软件教程
可以去官方的网站下载整合包,也可以去我的公猪呺后台留言“GPT-SoVits软件”领取整合包。
项目地址:https://github.com/RVC-Boss/GPT-SoVITS
下载完软件后,记得把它解压到一个没有中文的文件夹里,这点很重要哦!在开始之前,你得准备好一段声音素材,用来训练软件模仿你的声音。这段素材要清晰,没有杂音,说话要清楚,大概1到3分钟就够用了。
记住,你提供的声音素材质量,直接影响到最终合成的效果。
解压完软件后,找到并双击一个叫做 go-webui.bat
的文件,这样就能打开一个网页界面。之后的所有操作,你都可以在这个网页界面上完成。
2.3、本地使用教程
这代V2版本的使用方式跟上一个版本的方式差不多,我在半年前也写过V1版本的详细教程如下:【超详细教程】GPT-SoVITs从零开始训练声音克隆教程(主要以云端AutoDL部署为例)-CSDN博客
主要分为数据集处理、模型训练和推理这三大板块。
如果你的音频有混响,或者伴奏等嘈杂背景声音,可以开启UVR5进行处理,点击“开启UVR5-WebUI”
首先选择好模型,再者输入好音频所放的位置(这里最好把音频文件拖进来),选择导出文件格式为wav,最后点击“转换”即可。处理完成后就是去掉背景音频或者是混响的人声了。
接着来到语音切分工具,需要填写音频文件路径,如果你刚才使用了UVR5进行去杂音,那么直接填写UVR5处理后的路径,可以参考我提供的路径,一般在Output文件夹里面的。接着直接点击右边的“开启语音切割”。处理完成后,会显示图中的切割结束的提示。
来到了语音降噪工具,默认的输入路径就是刚才切分好的文件夹路径,输出路径也同样如此,这里直接点击“开启 语音降噪”开始处理音频。下方提示“任务完成”就已经成功了。
接下来来到了中文批量离线ASR工具,如果你的音频是中文普通话,直接用默认的选择;如果你的音频是粤语或者是英语,则需要在“ASR模型”的下拉框中选择“多语种”,右边的“ASR语言设置”选择对应的语言。选择完毕后,直接“开启离线批量ASR”。任务完成后,左下角会显示完成的提示语。
如果需要更加精确的调整,需要来到下面的“语音文本校对标注工具”,这一步骤比较费时费力,不过能让你的克隆出来的声音比较精确。
进入到打标工具页面,在Text填写框中修改语音对应的字幕,修改完这一页的话,一定要点击“Submit Text”保存这一页的文本,然后在点击“Next Index”进入下一页,旁边的“Previous Index”的上一页的意思。
然后来到“1-GPT-SoVits-TTS”,先取个模型名字,这里我训练的是黑神话悟空大圣的语音,所以取名为“wukong”。接着检测那个文本标注文件的路径是否刚刚标注好的文件路径,最后拉到最下面点击“一键三连”即可。
来到训练的界面,batch_size可以根据自己的显卡适当调高。首先开启①“开启SOVITS训练”,训练完成后,再接着开启②“开启GPT训练”。
最后来到推理界面,选择GPT和SoVits模型,e代表轮数,s代表步数,如果没有模型显示。建议点击右边的“刷新模型路径”按钮,最后呢,点击“开启TTS推理WebUI”即可。
来到了推理的WebUI,检查好模型选择列表中是否跟刚才选择的一样,然后上传切分好的一段音频文件,音频文件如下图的“Output/slicer_opt”文件夹目录下的其中一段就可以了。然后填写这段参考音频的文本即可。
最后的最后,来到下面填写好需要合成的文本,点击“合成语音”即可,右边栏中即可听到生成的语音了,下面来听听我训练好的黑神话悟空大圣的语音吧!!!
三、云端制作教程
3.1、注册/登录AutoDL
首先打开浏览器,访问AutoDL官方网站:AutoDL算力云 | 弹性、好用、省钱。租GPU就上AutoDL
接下来点击页面的右上角“注册”按钮,按照提示填写手机号、密码、邀请码等信息。
注册/登录完后,移动到左上角的“算力市场”,挑选一个性价比高的显卡,CUDA要大于11.8的,这里我选择RTX3090。
接着来到创建实例界面,点击“社区镜像”,输入“GPT-SoVits”,选择最新的镜像文件,比如我这里的V14版本的,然后点击“立即创建”即可。
来到容器实例界面,找到刚刚创建好的容器,点击“JupyerLab”进入到终端界面。
3.2、云端使用教程
来到终端界面,点击上方的“GPT-Sovits(使用).ipynb”,根据提示将音频文件放入对应的文件夹下,然后运行前两个命令行,点击选择命令行运行即可。
然后打开蓝色链接即可跳转到GPT-Sovits的WebUI界面了。
接下来的操作也就跟Windows本地部署的操作一样了,不过我还是手把手教你吧。
(怕你不会喔,我真贴心hhh^_^)
如果你的音频有混响,或者伴奏等嘈杂背景声音,可以开启UVR5进行处理,点击“开启UVR5-WebUI”。这里注意要主动打开网站,来到刚刚的终端界面,点击打开下一个蓝色链接即可。
这里同样的,选择好模型文件,填写好音频路径(这里可能已经帮我们填写好了),然后导出文件格式的选择,最后点击“转换”即可。
接着来到语音切分工具,需要填写音频文件路径,如果你刚才使用了UVR5进行去杂音,那么直接填写UVR5处理后的路径,可以参考我提供的路径,一般在Output文件夹里面的。接着直接点击右边的“开启语音切割”。处理完成后,会显示图中的切割结束的提示。
来到了语音降噪工具,默认的输入路径就是刚才切分好的文件夹路径,输出路径也同样如此,这里直接点击“开启 语音降噪”开始处理音频。下方提示“任务完成”就已经成功了。
接下来来到了中文批量离线ASR工具,如果你的音频是中文普通话,直接用默认的选择;如果你的音频是粤语或者是英语,则需要在“ASR模型”的下拉框中选择“多语种”,右边的“ASR语言设置”选择对应的语言。选择完毕后,直接“开启离线批量ASR”。任务完成后,左下角会显示完成的提示语。
如果需要更加精确的调整,需要来到下面的“语音文本校对标注工具”,这一步骤比较费时费力,不过能让你的克隆出来的声音比较精确。(这里需要注意一下,要回到终端那里的最后一行打开蓝色链接才行)
进入到打标工具页面,在Text填写框中修改语音对应的字幕,修改完这一页的话,一定要点击“保存修改”这一按钮保存这一页的文本,然后在点击“下一页”进入下一页,最后需要保存文件。
然后来到“1-GPT-SoVits-TTS”,先取个模型名字,这里我训练的是黑神话悟空大圣的语音,所以取名为“wukong”。接着检测那个文本标注文件的路径是否刚刚标注好的文件路径,最后拉到最下面点击“一键三连”即可。
来到训练的界面,batch_size可以根据自己的云端显卡适当调高。首先开启①“开启SOVITS训练”,训练完成后,再接着开启②“开启GPT训练”。
接着来到推理界面,选择GPT和SoVits模型,e代表轮数,s代表步数,如果没有模型显示。建议点击右边的“刷新模型路径”按钮,最后呢,点击“开启TTS推理WebUI”即可。(同样的,需要回到终端界面上点击蓝色链接才能打开)
来到了推理的WebUI,检查好模型选择列表中是否跟刚才选择的一样,然后上传切分好的一段音频文件,音频文件如下图的“Output/slicer_opt”文件夹目录下的其中一段就可以了。然后填写这段参考音频的文本即可。最后的最后,来到下面填写好需要合成的文本,点击“合成语音”即可,右边栏中即可听到生成的语音了。
四、结束语
上面的方式做出的视频,只要数据堆量起来,开橱窗带货,中视频平台的流量分成,创作分成,也是非常不错的变现手段。后续甚至可以接广告,卖产品带货等等。变现方式还是挺多的呢!
最后呢,非常感谢你阅读到这里。如果你觉得这篇文章不错,请随手点个赞、在看、并分享给更多的朋友。如果你希望第一时间收到我的推送,「也可以为我点个星标⭐~」再次感谢你的阅读,我们下次再见!拜拜~