论文阅读：A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild

最新推荐文章于 2024-04-09 20:13:44 发布

live_for_myself

最新推荐文章于 2024-04-09 20:13:44 发布

阅读量4.3k

点赞数 13

分类专栏：论文阅读文章标签： ACMMM论文

本文链接：https://blog.csdn.net/landing_guy_/article/details/116583628

版权

论文阅读专栏收录该内容

39 篇文章 14 订阅

订阅专栏

文章目录

词汇

rigorous /'rɪɡərəs/ 严格的；缜密的
benchmark 一般指测量基准
metrics /'mɛtrɪks/ 衡量指标
extensive quantitative evaluations 广泛定量评估
With the exponential rise in xx 在什么领域的指数上升
quintessential need /ˌkwɪntɪ’sɛnʃəl/ 基本需求
mitigate /'mɪtɪɡet/ 减轻，缓解
fine-grained 细粒度

论文解读

该文章是集中在修改视频的嘴部区域，输入是视频与音频，之前的方法有做静态图片的，现在还在纠结以后是做图片方面还是视频方面。论文有四个contributions：

提出了嘴型同步网络：Wav2Lip
提出了新的评估框架和衡量指标
发布了一个可以作为测量基准的数据集：ReSyncED
Wav2Lip准确度高，是第一个不受说话人影响的模型

一般像素级的损失是对整个图片而言，但是嘴部区域只占图片的一小部分，所以许多网络先进行周围区域的优化，然后再主要对嘴部区域进行操作。这就使得一开始的几次epoch并未对嘴部形成约束，所以作者想再加一个额外的判别器判断嘴型同步。当然LipGAN里有一个，但是不够强大。原因有二，一个是LipGAN使用单张图片做口型同步检测，另外训练过程有许多伪影，使得判别器注意力并不在嘴部。作者验证得出加入上下文信息检测lip sync是很有用的。
对于口型同步鉴别这块，作者借鉴了SyncNet，参见Syncnet

方法解释

专家口型同步鉴别器与生成器借鉴了别人的方法, 整体架构如图:
在这里插入图片描述

对于预训练的口型鉴别器:

首先是对Syncnet的处理, 论文作者对其进行了三个改进:

原来网络使用灰度图, 这里可以使用彩色图
通过残差模块网络变得更深了
将损失函数改为了余弦相似度, 公式如下图:

其实余弦相似度就是计算余弦值, 为1说明两者重合, 为-1则相反, 不过论文中说范围是0~1.
通过在LRS2数据集上的训练, 就得到了一个比较好的口型同步鉴别器.

对于生成器:

有了鉴别器之后就是生成器, 这里作者借用了LipGAN的生成器结构, 参见论文Towards Automatic Face-to-Face Translation
这里存在一个问题, 假如要将生成器与鉴别器同时使用, 需要考虑到输出的匹配, 因为唇形同步鉴别器一次输入是5帧, 该怎么匹配这个地方呢?

匹配问题

首先令生成器生成5帧, 为参考帧采样一个随机的连续窗口, 也就是输入改为连续的5帧了，以确保整个 $T_V=5$ 帧窗口的姿势等在时间上的一致性。
由于生成器独立处理每个帧，因此沿批处理维度堆叠时间步(stack the time-steps along
the batch dimension), 这里应该是按时间取了5帧, 独立生成, 正好对应预训练的鉴别器, 同时馈入参考帧以获得 $N·T_v，H，W，3)$ 的输入形状， $N ， H ， W$ 分别是批处理大小，高度和宽度。
生成器独立生成帧之后按时间顺序channel维度级联, 因为同步鉴别器就是这样训练的.
最终输入到同步判别器的形状是 $N,H/2,W, 3·T_v )$ , $H$ 变为一般是因为仅将生成的面部的下半部分用于识别

还对生成器进行了培训，最小化同步鉴别器的“专家同步损失” $E_{sync}$ ：
在这里插入图片描述

$P^i_{sync}$ 是由之前改进的口型同步鉴别器的余弦相似度损失, 注意在生成器训练期间口型同步鉴别器权重是冻结的, 这样就迫使生成器注意口型同步.

改进面部质量

现在使用了口型同步鉴别器, 视频同步精度有了保证, 但是只有这单个鉴别器会使得变形的区域有模糊或伪影. 为了减轻这种质量损失, 于是与生成器共同训练了一个视觉质量鉴别器. 还是强调这里未对口型同步鉴别器进行训练, 参见上文.
鉴别器 $D$ 由一堆卷积块组成。每个块由一个卷积层和紧随其后的 $R e L U$ 激活层组成.