论文阅读笔记——【NOLANet】DF Video Detection Based on Spatial, Spectral, and Temporal Inconsistencies

jessIoss

已于 2024-06-08 11:08:18 修改

阅读量936

点赞数 16

分类专栏： Deepfake 论文阅读笔记文章标签：论文阅读笔记

于 2024-03-13 23:09:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_39223177/article/details/136556086

版权

论文阅读笔记同时被 2 个专栏收录

28 篇文章 2 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

24 篇文章 2 订阅

订阅专栏

NOLANet是一种多模态深度学习方法，利用空间、光谱和时间内容的不一致性来区分真实和假视频。通过结合BlazeFace的人脸检测、FANet的面部标志提取、离散余弦变换的频域分析以及LSTM的特征融合，实现音频和视觉的时空对齐。该方法在DFDC数据集上进行了训练和测试，证明了跨模态特征的有效性。

摘要由CSDN通过智能技术生成

文章目录

Deepfake Video Detection Based on Spatial,Spectral, and Temporal Inconsistencies Using Multimodal Deep Learning

Deepfake Video Detection Based on Spatial,Spectral, and Temporal Inconsistencies Using Multimodal Deep Learning

会议：AIPR W 2020
作者：
在这里插入图片描述
许多DF检测方法使用的单针视频

创新

多模态检测——视觉+频谱+语音
提出了一种混合的深度学习方法，它使用空间、光谱和时间内容，以一致的方式耦合来区分真实视频和假视频。

BlazeFace的检测模型。这个模型可能是用于检测视频中人脸的关键点。
FANet面部对准网络——检测面部标志，并分别裁出眉眼、鼻部和唇部【眉眼/唇部=2:1；鼻部1:1】

在时间上对齐视觉和音频特征

我们使用离散余弦变换而不是傅里叶变换。

了解本专栏

超级会员免费看

关注

16
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。