【论文阅读】Out of time: automated lip sync in the wild

abcdhhhh_

已于 2023-11-15 14:08:56 修改

阅读量720

点赞数

分类专栏：草稿文章标签：论文阅读

于 2022-10-11 19:20:03 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_47903865/article/details/118975326

版权

草稿专栏收录该内容

8 篇文章 0 订阅

订阅专栏

文章链接
 代码
 参考

关键词

音画同步、CNN、SyncNet

前言

在视频播放中，常常出现音画不同步的现象，它们的时差通常在 -125ms~45ms 之间。
解决该问题通常有以下几种思路：

传统方式：场记板 (clapperboard)
现代方式：时间码 (timecode)、时间规整技术 (time warping)

（大多数相关工作并未以观众可直接访问的音视频作为数据集）
（一些文章借助因素、母音等）
（更新的文章尝试寻找音视频数据之间的一致性）

贡献点

提出语言和说话人无关的模型
通过无标注数据基于卷积网络对音频和嘴形经行特征嵌入
第一个端到端的音唇同步网络
应用场景：
1. 检测音唇同步误差
2. 判断多人场景中的发言人
3. 读唇术

模型

SyncNet网络结构，输入0.2s 的音频和视频片段（无标签），但假设它们通常是同步的。

音频流

输入数据为 MFCC 数值（声音的短时功率谱，参考）
可编码为热图，如下所示。(13×20×1)

采用基于VGG-M (参考) 的CNN进行训练。

视频流

预处理得到嘴唇部分的灰色图片。
时间方向上以 25fps 的速率取连续5帧。(111×111×5)
在这里插入图片描述

损失函数

采用对比损失（用于孪生网络）
$E=\frac{1}{2N}\sum_{i=1}^{N}(y_n)d_n^2+(1-y_n)\max(margin-d_n, 0)^2$
$d_n=||v_n-a_n||_2$

训练

采用CNN，运用带momentum的SGD进行训练。

数据增强：

所有样本音频随机调整±10%
负样本进行随机截取
对视频采用ImageNet的标准增强方法

数据集

BBC

实验

3个应用场景

音唇同步误差

在这里插入图片描述

另外对不同语言也适用。

发言人检测

在这里插入图片描述
通过计算匹配度得到。

读唇术

在这里插入图片描述
增加LSTM对图像帧做序列标注。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【论文阅读】Out of time: automated lip sync in the wild

文章链接参考关键词音画同步、CNN、SyncNet前言在视频播放中，常常出现音画不同步的现象，它们的时差通常在 -125ms~45ms 之间。解决该问题通常有以下几种思路：传统方式：场记板 (clapperboard)现代方式：时间码 (timecode)、时间规整技术 (time warping)（大多数相关工作并未以观众可直接访问的音视频作为数据集）（一些文章借助因素、母音等）（更新的文章尝试寻找音视频数据之间的一致性）贡献点提出语言和说话人无关的模型通过无标注数据基于
复制链接

扫一扫

专栏目录

abcdhhhh_ CSDN认证博客专家 CSDN认证企业博客

码龄4年

59: 原创

38万+: 周排名

20万+: 总排名

3万+: 访问

: 等级

686: 积分

716: 粉丝

20: 获赞

51: 评论

48: 收藏

私信

关注

热门文章

分类专栏

工具 2篇
草稿 8篇
ACM 45篇
随笔 8篇
离散数学 1篇

最新评论

【论文阅读】注意力机制与二维 TSP 问题
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读】注意力机制与二维 TSP 问题
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读】X-vectors: Robust DNN Embedding for Speaker Recognition
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34 给我们提。
【论文阅读】Out of time: automated lip sync in the wild
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34 给我们提。
【hdu 6966】I love sequences (FWT)
m0_69427482: ！。一一公阶體育哦疲憊 06

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。