2024清明节新产业:AI复活亲人动态老照片动起来开口说话抖音视频制作老人像复活动画

文章介绍了清明节期间兴起的技术应用,如利用GPT-SoVITS进行声音克隆,通过facefusion和wav2lip将照片转化为视频,以及视频生成视频技术的挑战,如Sora和EMO在处理视频嘴型同步中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

清明节,催生了一个新的产业:

技术栈:

声音克隆

如果想用已故人的较短音频,生成相似音色的语音,当前GPT-SoVITS可以实现。

GPT-SoVITS是由RVC变声器的创始人(GitHub昵称为RVC-Boss)与AI音色转换技术专家Rcell合作开发的一个开源项目。它是一个跨语言音色克隆工具,专注于声音的转换和克隆。

照片生成视频

facefusion或者wav2lip均可,如果只是照片,两者都可以在CPU下完成,前者B站UP有PC封装版本,可以直接使用。

视频生成视频

这个想对较难,先要提取出音频,进行克隆;在需要视频嘴型同步生成。目前国外的sora可以,前面提到的照片生成视频工具也可以,但是需要GPU加持,1秒视频按30帧(图片)计算,一分钟就要1800张图片的嘴型要进行处理,且视频原始画面的嘴型要尽可能连续。国内阿里的EMO据说可以,但是3月初开源了个寂寞。

以上技术栈,你问国内大模型,他们都知道,所以就不用找我了,实现起来不难。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值