【论文阅读】Out of time: automated lip sync in the wild

文章链接
代码
参考

关键词

音画同步、CNN、SyncNet

前言

在视频播放中,常常出现音画不同步的现象,它们的时差通常在 -125ms~45ms 之间。
解决该问题通常有以下几种思路:

  1. 传统方式:场记板 (clapperboard)
  2. 现代方式:时间码 (timecode)、时间规整技术 (time warping)

(大多数相关工作并未以观众可直接访问的音视频作为数据集)
(一些文章借助因素、母音等)
(更新的文章尝试寻找音视频数据之间的一致性)

贡献点

  1. 提出语言和说话人无关的模型
  2. 通过无标注数据基于卷积网络对音频和嘴形经行特征嵌入
  3. 第一个端到端的音唇同步网络
  4. 应用场景:
    1. 检测音唇同步误差
    2. 判断多人场景中的发言人
    3. 读唇术

模型

SyncNet网络结构,输入0.2s 的音频和视频片段(无标签),但假设它们通常是同步的。

音频流

输入数据为 MFCC 数值(声音的短时功率谱,参考
可编码为热图,如下所示。(13×20×1)
热图
采用基于VGG-M (参考) 的CNN进行训练。

视频流

预处理得到嘴唇部分的灰色图片。
时间方向上以 25fps 的速率取连续5帧。(111×111×5)
在这里插入图片描述

损失函数

采用对比损失(用于孪生网络)
E = 1 2 N ∑ i = 1 N ( y n ) d n 2 + ( 1 − y n ) max ⁡ ( m a r g i n − d n , 0 ) 2 E=\frac{1}{2N}\sum_{i=1}^{N}(y_n)d_n^2+(1-y_n)\max(margin-d_n, 0)^2 E=2N1i=1N(yn)dn2+(1yn)max(margindn,0)2
d n = ∣ ∣ v n − a n ∣ ∣ 2 d_n=||v_n-a_n||_2 dn=∣∣vnan2

训练

采用CNN,运用带momentum的SGD进行训练。

数据增强:

  • 所有样本音频随机调整±10%
  • 负样本进行随机截取
  • 对视频采用ImageNet的标准增强方法

数据集

BBC

实验

3个应用场景

音唇同步误差

在这里插入图片描述
在这里插入图片描述
另外对不同语言也适用。

发言人检测

在这里插入图片描述
通过计算匹配度得到。
在这里插入图片描述

读唇术

在这里插入图片描述
增加LSTM对图像帧做序列标注。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值