山东大学项目实训 第三周个人工作报告

本周主要实现了英语口语助手数字人模型的实现和优化

我选用的是CVPR2023的SadTalker模型,论文地址为:
https://arxiv.org/abs/2211.12194

项目地址为

https://github.com/OpenTalker/SadTalker

在HuggingFace上也有演示,不过资源排的较紧张,在线演示成功率比较低

首先下载模型:

bash scripts/download_models.sh

直接用命令行演示:

python inference.py --driven_audio <audio.wav> \
                    --source_image <video.mp4 or picture.png> \
                    --enhancer gfpgan 

其中增加了enhancer选项能以提高生成的视频的质量,这里采用了对抗生成网络GFGAN进行视频清晰度增强,但是会增加推理的时间,实际在Intern Studio上跑运行显存不大,可以接受

推理时间有较大部分花在了为图像提取特征的阶段,所以后续考虑使用固定的输入人脸图像,提前提取特征,避免每次读取;同时可以考虑只保存最终视频输出,不保存中间结果,提高性能。

运行结果展示:

这里结合上周实现的微软TTS,将以下文本转为音频再转为视频:

Absolutely. Take traffic as an example. The most common transport facility used to be buses. It could be really crowded sometimes since people didn't have any other options. However, today, BRT and subway systems have made people's lives easier than ever.

原始输入图片:

这里选择没有用到对抗生成网络增强视频质量,输出视频:

SadTalker模型生成的视频

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值