利用人脸3DMM重构信息检测深度伪脸视频论文阅读笔记

本文链接：https://blog.csdn.net/weixin_42418315/article/details/131956713

该方法通过3DMM重构人脸信息，建立特征参考集，利用唇读、头部姿势、眼动等多模态特征检测伪造视频。在检测阶段，通过比对外貌和行为特征的匹配性来判断视频真伪。实验涉及唇形、头部姿势、眼球运动、人脸标志点等多个方面，但也面临检测性能受多种因素影响的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

利用人脸3DMM重构信息检测深度伪脸视频

介绍
方法
实验结果分析

介绍

本文思路：带度量学习目标函数的卷积神经网络，在训练阶段从参考视频中逐段学习人脸外貌和行为特征，构造各人物的人脸外貌特征和行为特征参考集；在检测阶段通过逐段对比待测视频相应的特征是否存在于上述两个参考集中且人脸外貌特征和行为特征是否匹配来鉴定真伪。
把源人脸换到目标人脸上，不改变目标人脸的面部动作和表情，所以就会出现面部行为与外貌特征不一致故检测时可检测外貌特征和行为特征是否一致。训练时，构造人脸外貌特征和行为特征参考集，检测时，特征是否存在参考集中，两个特征要匹配

检测方法：

1、唇读取证的方法，利用伪造视频中口腔运动高级语义上的不规则性作为检测线索来区分真假唇形
2、头部姿势的不一致性来检测伪造视频
3、换脸视频在协调眼球运动的时域一致性方面存在局限性，利用眼动特征判断视频是否存在换脸
利用生理部分（唇、头、眼）
4、换脸过程存在人脸标志点偏移这一局限性，基于人脸标志点构造时空域特征角特征来检测换脸视频
5、假脸图片放缩留下的痕迹，利用换脸制作过程中整体画面缺陷或痕迹，有明确物理定义的空间或变换域算子
6、视频换脸视为特殊的拼接篡改问题，利用神经分割网络预测篡改区域，再利用预测区域与先验人脸区域的交并比来判断真假
7、篡改区域定位任务与分类任务相结合，设计可训练的注意力模块，使用掩膜标签计算损失函数引导网络训练，改善检测模型的泛化性能

存在问题：
（1）检测性能易受图像篡改方式、换脸生成方法、视频压缩率等因素的影响；
（2）手工特征的可解释性好但准确率不够高，深度网络检测器的准确率高但可解释性不够好；
（3）属于泛对象检测，即对所有检测对象都同等对待，缺少针对特定人物对象的检测方法。

方法

在这里插入图片描述

3DMM图像重构信息输出模块

在这里插入图片描述
基于弱监督学习的3D人脸重建算法，其主干网络为ResNet-50，通过连接257个神经元组成的全连接层，输出257维向量
面部外貌：形状αid∈R80，纹理αtex∈R80

形状向量=平均人脸形状向量+m个模型基向量求和（形状参数形状主成分）+n个模型基向量求和（表情参数表情主成分）
纹理向量=平均人脸纹理向量+m个模型基向量求和（纹理参数*纹理主成分）

面部行为：表情αexp∈R64，姿势p∈R3
改变形状参数，形状不同，表情相同
改变表情参数，形状相同，表情不同
三维重建的标准人脸是正向人脸，可借助旋转矩阵和平移向量来表示人物头部的三维姿态信息

面部行为特征提取模块

ResNet-34基础上构建面部行为特征提取模块，提取时间轴上滑动窗中全体帧图像的表情和姿态来表征与滑动窗视频段对应的面部行为特征，为了学习映射𝑓(⋅)，提出利用多相似性度量学习损失函数(Multi-Similarity Loss, MS-Loss) 来训练ResNet-34，最后得到维度𝑑=512的行为特征
在这里插入图片描述

外貌特征提取模块

在这里插入图片描述

参考集的构建、检测流程和判断决策

预处理：以视频的滑动窗为检测的基本单元，将长度为𝐿的视频采用窗口大小为𝜉，步长为𝜎（𝜎≤𝜉）的方式划分成𝜂段
训练阶段，全体人物的视频预处理后，逐滑动窗得到512维的面部行为特征𝑏与160维的面部外貌特征𝑣，组成有人物ID对应关系的面部行为特征参考集𝐵和外貌特征参考集𝑉
测试阶段：待测视频预处理，得到512维的面部行为特征𝑏𝑡 与160维的面部外貌特征𝑣𝑡，与参考集中特征向量进行余弦相似度匹配，得到外貌特征相似度最大时所对应的人物标签𝑖𝑑𝑎 和面部行为特征相似度最大时所对应的人物标签𝑖𝑑𝑏 ，以及最大的外貌相似度𝑐𝑎
在这里插入图片描述
测试时，从待测视频得到512维的面部行为特征bt160维的面部外貌特征vt，与参考集中vi和bj进行对比取最大，得到人物标签ida和idb）
若𝑖𝑑𝑎≠𝑖𝑑 𝑏 ，则判定该窗测试视频段为假；若𝑖𝑑𝑎=𝑖𝑑 𝑏 ，再进一步检查𝑐𝑎 是否大于设定的外貌特征相似度阈值𝜏𝑎 ，若𝑐𝑎>𝜏 𝑎 ，则判定该窗测试视频段为真，否则为假

𝜏𝑎的选取，𝜏𝑎=0.95
FF++、DFD和Celeb-DF这3个数据集的真实样本和伪造样本中阈值𝜏𝑎 与准确率的关系曲线
在这里插入图片描述
视频滑动窗尺寸𝜉对算法性能的影响
𝜉太小则窗内视频太短，无法准确刻画面部行为的时域特征；𝜉太大则窗内视频太长，包含过多不同的面部行为，会相互干扰，同时会增加计算复杂度

为避免各个视频段行为特征的重复提取，令滑动步长与窗口大小相等，即𝜎=𝜉=100，相邻滑动窗无重叠视频帧

实验结果分析

真假二分类任务
真实视频看作阳性样本，阳性的正确预测数目记为TP，错误预测数目为FN
伪造视频看作阴性样本，阴性的正确预测数目记为TN，错误预测数目为FP
真阳率TPR=TP/(TP+FN)。越高越好
假阳率FPR=FP/(TN+FP)。越低越好
真阴率TNR=TN/(TN+FP)，越高越好
假阴率FNR=FN/(TP+FN)，越低越好
半总错误率HTER=(FPR+FNR)/2，越低越好

1、利用OpenCV的VideoCapture类将视频解码成图像序列，对序列中每帧图像利用RetinaFace[ 18]人脸检测算法检测并裁剪出人脸区域，利用人脸标志点对齐，再用双线性插值方法将其统一调整成224×224大小的图像
2、对于面部行为特征提取预先训练，采用VoxCeleb2视频数据集作为训练集，设置最大训练迭代次数为20000，训练批尺寸为128，采用SGD优化器作为训练优化器，初始学习率为0.01，采用学习率随训练迭代次数衰减策略，避免模型训练后期在最小值附近徘徊
3、性能验证在FaceForensics++(FF++)、Deepfakes Detection (DFD) 和Celeb-DF上进行，数据集的划分随机选择80%的真实视频段作为参考集，将剩余20%的真实视频段和所有的篡改视频段作为测试集
有效性
在这里插入图片描述
稳健性