wav2lip算法生成的数字人嘴部不够理想怎们办 -----新方法助力你优化解决这个问题

xuxu1116

已于 2023-07-27 15:50:08 修改

阅读量4.2k

点赞数 2

分类专栏：数字人生成技术文章标签： wav2lip 数字人生成算法超分算法轻量化超分算法高清wav2lip 高清数字人 wav2lip高清优化方案

于 2023-07-25 21:18:33 首次发布

未经本人允许不得转载

本文链接：https://blog.csdn.net/weixin_43228814/article/details/131925967

版权

数字人生成技术专栏收录该内容

1 篇文章

订阅专栏

针对wav2lip生成数字人嘴部不清晰的问题，本文提出采用南洋理工大学的ResShift超分算法，该算法轻量化且高效，能在保持高性能的同时减少扩散步骤，显著提升数字人生成的嘴部清晰度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

`
随着人工智能的不断发展，数字人技术也越来越重要，很多人都开启了学习模型
但是使用神级模型wav2lip生成的数字人嘴部不清晰怎么办。
很影响使用效果，接下来教大家如何优化这个问题，如下图所示：
在这里插入图片描述

一、解决方案详解

因为wav2lip是通过替换嘴型来到达驱动嘴型发声的原理，原始的嘴部模型是96x96的，在贴合回脸上，96x96和周围的像素不一致就会导致上面的现象，我们如何解决呢，答案就是超分变率，让嘴部的96x96变成跟周围一样的分辨率
就是下面的效果,但是超分很慢，今天给大家分享一下，稍微快一点的超分方法
在这里插入图片描述

给大家推荐一个新的超分算法，区别于codeformer,gfpgan以外的算法，南洋理工大学的作品，含金量没问题吧
今年的新作品代码刚开源：ResShift: 一种新颖且高效的图像超分辨率扩散模型主打一个轻量级，速度对于数字人生成来说的重要性大家都知道了吧
这篇作品显著减少了扩散步骤的数量，从而消除了推理过程中后加速的需要及性能恶化，即使只有 15 个采样步骤，其在合成、真实数据集上也能获得比当前最先进的方法更好或至少相当的性能，
现有的加速采样技术不可避免地会在一定程度上牺牲性能，导致超分辨率结果过于模糊。为了解决这个问题，我们提出了一种新颖且高效的 SR 扩散模型，该模型显著减少了扩散步骤的数量，从而消除了推理过程中后加速的需要及其相关的性能恶化。构建了个马尔可夫链，通过在高分辨率图像和低分辨率图像之间移动残差来在高分辨率图像和低分辨率图像之间进行传输，从而大大提高了传输效率。此外，还制定了精心设计的噪声表，以灵活控制扩散过程中的移动速度和噪声强度。大量的实验表明，即使只有 15 个采样步骤，所提出的方法在合成数据集和真实数据集上也能获得很好的性能。

下面的是效果图
在这里插入图片描述
请添加图片描述