论文阅读:A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild

词汇
  • rigorous /'rɪɡərəs/ 严格的;缜密的
  • benchmark 一般指测量基准
  • metrics /'mɛtrɪks/ 衡量指标
  • extensive quantitative evaluations 广泛定量评估
  • With the exponential rise in xx 在什么领域的指数上升
  • quintessential need /ˌkwɪntɪ’sɛnʃəl/ 基本需求
  • mitigate /'mɪtɪɡet/ 减轻, 缓解
  • fine-grained 细粒度
论文解读

该文章是集中在修改视频的嘴部区域,输入是视频与音频,之前的方法有做静态图片的,现在还在纠结以后是做图片方面还是视频方面。论文有四个contributions:

  1. 提出了嘴型同步网络:Wav2Lip
  2. 提出了新的评估框架和衡量指标
  3. 发布了一个可以作为测量基准的数据集:ReSyncED
  4. Wav2Lip准确度高,是第一个不受说话人影响的模型

一般像素级的损失是对整个图片而言,但是嘴部区域只占图片的一小部分,所以许多网络先进行周围区域的优化,然后再主要对嘴部区域进行操作。这就使得一开始的几次epoch并未对嘴部形成约束,所以作者想再加一个额外的判别器判断嘴型同步。当然LipGAN里有一个,但是不够强大。原因有二,一个是LipGAN使用单张图片做口型同步检测,另外训练过程有许多伪影,使得判别器注意力并不在嘴部。作者验证得出加入上下文信息检测lip sync是很有用的。
对于口型同步鉴别这块,作者借鉴了SyncNet, 参见Syncnet

方法解释

专家口型同步鉴别器与生成器借鉴了别人的方法, 整体架构如图:
在这里插入图片描述

对于预训练的口型鉴别器:
  • 首先是对Syncnet的处理, 论文作者对其进行了三个改进:
  1. 原来网络使用灰度图, 这里可以使用彩色图
  2. 通过残差模块网络变得更深了
  3. 将损失函数改为了余弦相似度, 公式如下图:
    在这里插入图片描述
    其实余弦相似度就是计算余弦值, 为1说明两者重合, 为-1则相反, 不过论文中说范围是0~1.
    通过在LRS2数据集上的训练, 就得到了一个比较好的口型同步鉴别器.
对于生成器:
  • 有了鉴别器之后就是生成器, 这里作者借用了LipGAN的生成器结构, 参见论文Towards Automatic Face-to-Face Translation

  • 这里存在一个问题, 假如要将生成器与鉴别器同时使用, 需要考虑到输出的匹配, 因为唇形同步鉴别器一次输入是5帧, 该怎么匹配这个地方呢?

匹配问题

首先令生成器生成5帧, 为参考帧采样一个随机的连续窗口, 也就是输入改为连续的5帧了,以确保整个 T V = 5 T_V=5 TV=5帧窗口的姿势等在时间上的一致性。
由于生成器独立处理每个帧,因此沿批处理维度堆叠时间步(stack the time-steps along
the batch dimension), 这里应该是按时间取了5帧, 独立生成, 正好对应预训练的鉴别器, 同时馈入参考帧以获得 ( N ⋅ T v , H , W , 3 ) (N·T_v,H,W,3) (NTvHW3)的输入形状, N , H , W N,H,W NHW分别是批处理大小,高度和宽度。
生成器独立生成帧之后按时间顺序channel维度级联, 因为同步鉴别器就是这样训练的.
最终输入到同步判别器的形状是 ( N , H / 2 , W , 3 ⋅ T v ) (N,H/2,W, 3·T_v ) (N,H/2,W,3Tv), H H H变为一般是因为仅将生成的面部的下半部分用于识别

还对生成器进行了培训,最小化同步鉴别器的“专家同步损失” E s y n c E_{sync} Esync
在这里插入图片描述

P s y n c i P^i_{sync} Psynci 是由之前改进的口型同步鉴别器的余弦相似度损失, 注意在生成器训练期间口型同步鉴别器权重是冻结的, 这样就迫使生成器注意口型同步.

改进面部质量

现在使用了口型同步鉴别器, 视频同步精度有了保证, 但是只有这单个鉴别器会使得变形的区域有模糊或伪影. 为了减轻这种质量损失, 于是与生成器共同训练了一个视觉质量鉴别器. 还是强调这里未对口型同步鉴别器进行训练, 参见上文.
鉴别器 D D D由一堆卷积块组成。每个块由一个卷积层和紧随其后的 R e L U ReLU ReLU激活层组成.

  • 鉴别器经过训练以使目标函数 L d i s c L_{disc} Ldisc最大化:
    在这里插入图片描述

其中 L g L_g Lg对应于来自生成器G的图像, L G L_G LG对应于真实图像。

  • 而生成器将下面的方程最小化,该方程式是重建损失来源在此,同步损失(就是上面对生成器训练时口型同步器的判断 E s y n c E_{sync} Esync)和对抗损失 L g e n L_gen Lgen(参见上文) 的加权和:

在这里插入图片描述
其中 s w s_w sw是同步惩罚权重, s g s_g sg是对抗损失,在所有的实验中均设置为0.03和0.07。
因此,完整网络使用两个不相交的鉴别器进行了优化,以实现卓越的同步精度和质量

训练细节

仅在批量大小为80的 L R S 2 LRS2 LRS2数据集上训练模型。使用Adam优化器, 初始学习率为1e−4, β 1 β_1 β1 = 0.5, β 2 β_2 β2 = 0.999用于生成器和视觉质量鉴别器D。口型同步鉴别器没有进一步fine-tuned, 即冻结了权重.

总结

因为采用了LipGAN的生成器自然输出时一帧一帧的, 每个时间步长(因为要凑口型同步鉴别器所以是5帧)的输入时当前的面部crop(来源于source frame), 和相同的frame只不过是下半部分被遮挡了. 因此,在推理过程中,模型不需要更改姿势,从而大大减少了伪像。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

live_for_myself

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值