清明节,催生了一个新的产业:
技术栈:
声音克隆
如果想用已故人的较短音频,生成相似音色的语音,当前GPT-SoVITS可以实现。
GPT-SoVITS是由RVC变声器的创始人(GitHub昵称为RVC-Boss)与AI音色转换技术专家Rcell合作开发的一个开源项目。它是一个跨语言音色克隆工具,专注于声音的转换和克隆。
照片生成视频
facefusion或者wav2lip均可,如果只是照片,两者都可以在CPU下完成,前者B站UP有PC封装版本,可以直接使用。
视频生成视频
这个想对较难,先要提取出音频,进行克隆;在需要视频嘴型同步生成。目前国外的sora可以,前面提到的照片生成视频工具也可以,但是需要GPU加持,1秒视频按30帧(图片)计算,一分钟就要1800张图片的嘴型要进行处理,且视频原始画面的嘴型要尽可能连续。国内阿里的EMO据说可以,但是3月初开源了个寂寞。
以上技术栈,你问国内大模型,他们都知道,所以就不用找我了,实现起来不难。