视频目标移除检测(Object Removal Forgery Detection)学习笔记

Hush_NUIST

已于 2024-04-29 09:14:46 修改

阅读量1.3k

点赞数 20

文章标签：笔记视频深度学习音视频

于 2024-01-11 14:01:43 首次发布

本文链接：https://blog.csdn.net/qq_39969848/article/details/135511900

版权

1.不一致光照和高边界对比度

不一致光照(inconsistent light)指的是在一组视频帧中，由于物体的变换、反射和遮挡，环境光在不同帧之间的表现出现变化。这种变化可能是因为物体的移动、相机的移动或者光源的变化导致的。在单个视频帧内，光照通常表现为相对一致，因为所有的影像内容都是在同一瞬间捕捉的，而在连续的视频帧中，物体和光源的相对位置可能会发生变化，从而导致光照的变化。

高边界对比度(High boundary contrast)是一个图像处理术语，通常用来描述图像中边界区域亮度或颜色的显著变化。在图像中，边界是两个不同区域相遇的地方，边界对比度是指边界两侧亮度或颜色差异的程度。
这里的一些关键点有助于理解“高边界对比度”：

边界：通常指的是图像中物体的轮廓线，或者是不同颜色、纹理或亮度区域之间的分界线。
对比度：指的是图像中最亮和最暗部分之间的差异。高对比度意味着这种差异很大，使得图像看起来更加鲜明和清晰。
高边界对比度：特别指图像中的边界处的对比度很高，也就是说，一个区域到另一个区域的过渡非常快速和明显，没有渐变或模糊的过渡。
在图像伪造检测的背景下，高边界对比度可能是因为伪造过程中的不自然编辑。例如，如果一个物体被粘贴到另一个图像上，物体的边缘可能与背景的边缘对比度非常高，因为它们并不是自然拍摄的一部分，而是后期合成的结果。这种不自然的高边界对比度可以被用作检测图像是否被篡改的一个信号。

1.1对应高频信息还是低频信息

“Inconsistent light”（不一致的光照）通常是指图像中光照条件的不连贯性或不自然性，这种情况可能在图像合成或篡改时出现。不一致的光照可能表现为以下几种情况：

光照方向不一致：图像中不同物体的阴影方向可能相互矛盾，表明它们是在不同光照条件下拍摄然后合成在一起的。
光照强度不一致：图像中某些区域可能比其他区域明显更亮或更暗，而这种亮度变化并不符合自然光照的规律。
色彩温度不一致：不同光源的色温不同，可能导致图像中的色彩分布出现不自然的情况，比如同一场景中出现冷暖色调的不协调。
反射和高光不一致：物体表面的反射和高光应该与光照条件相符，不一致的反射和高光可能暗示图像被修改。
在图像的频率域中，“inconsistent light”不对应于特定的频率范围，如高频或低频，因为光照不一致可能影响整个图像的多个方面。不过，光照的不一致性可能导致图像中出现一些异常的高频或低频信息，这取决于光照不一致性的具体表现形式。例如，不自然的阴影边缘可能会增加高频信息，而大面积光照不均可能会影响中频和低频信息。
但是在学习过程中，该概念通常被定义为低频信息，这可能与光照变化的特性有关。通常，在图像或视频中，快速变化的细节（如边缘、纹理等）被编码为高频信息，而缓慢变化的大范围特征（如渐变的阴影或光照的整体变化）被编码为低频信息。不一致光照往往涉及到整体光照条件的变化，这些变化在空间上是渐变的，不会在图像的小区域内突然改变，因此它们在频率域中主要表现为低频成分。

High boundary contrast(高边界对比度)对应的是图像的高频信息。在图像处理中，边界对比度高意味着在很小的空间范围内，像素值（亮度或颜色）有很大的变化。这种快速变化的特征是由图像的高频分量表示的。

在傅里叶变换（一种常用来分析图像中频率成分的工具）中，图像的高频分量对应于图像中的细节部分，如边缘、纹理和噪声，而低频分量则对应于图像中的平滑区域，如均匀的背景和大的色块。因此，当我们谈论高边界对比度时，我们实际上是在指高频信息。

1.2SRM滤波器可以捕捉高频篡改痕迹

已有相关文献证明SRM可以有效的提取高频信息，SRM通过计算目标像素和相邻像素的残差，量化并截断滤波器的输出，提取同现信息作为最终特征。
SRM滤波器通过计算像素的残差，实际上是在提取这些高频信息。
这个过程和高频信息的关系可以这样理解：

卷积核设计：SRM滤波器的设计通常是为了响应图像中的特定高频模式。例如，一个简单的高通滤波器可以检测到图像中的边缘，因为边缘表示像素值的快速变化。
残差提取：当SRM滤波器应用于图像时，它计算目标像素与其周围像素在经过滤波器处理后的差异。如果目标像素周围有显著的变化（如边缘或细节），这种变化将在残差中得到体现，因为滤波器的输出会与原始像素值产生较大的差异。
高频特征：这些残差实际上反映了图像中的高频特征。残差较大的区域通常对应于图像中的高频内容，如边缘或纹理变化。
SRM滤波核通常不参与参数训练，而是当做图像的一个与处理层，这样可以在较少的计算成本的情况下提出高频信息。

2.特征融合之CBP层

直接指路双线性池化相关论文
还是写的比较详细的，值得一提的是该层有两种投影方法，RM（随机麦克劳林）和TS(张量草图)，其中TS的计算量和参数量较少。
吐槽一下两个128维经过CBP后融合得到的特征维度是8192，这也忒大了

3.IoU指标

在视频篡改检测和计算机视觉领域，IoU（Intersection over Union）是一种常用的评估指标，用于衡量预测边界框（bounding box）与真实边界框之间的重叠程度。IoU 是一种评价目标检测算法性能的标准方法，尤其在视频篡改检测中，它可以帮助我们了解检测到的篡改区域的准确性。

IoU 的计算方法如下：

交集（Intersection）：计算预测边界框和真实边界框之间的交集区域。
并集（Union）：计算两个边界框覆盖的总区域，包括交集部分和各自独有的部分。
计算IoU值：将交集的面积除以并集的面积。

$\text{IoU} = \frac{\text{Area of Intersection}}{\text{Area of Union}}$

IoU 值的范围从0到1：

IoU = 0 表示没有重叠。
IoU = 1 表示完美重叠，预测边界框与真实边界框完全吻合。

在实践中，IoU 值越高，表示预测的边界框与真实边界框吻合得越好，检测算法的性能越好。通常，IoU 值大于某个阈值（例如0.5）时，预测结果才会被认为是正确的。

在视频篡改检测任务中，IoU 可以用来评估检测出来的篡改区域与实际篡改区域之间的一致性。高IoU值表明检测算法能够准确定位视频中被篡改的部分，而低IoU值则可能意味着检测结果不准确，或者篡改区域被部分遗漏或错误标记。

3.图像的纹理和边缘特征指的是什么

纹理信息：
- 纹理信息描述的是图像中重复出现的局部模式和结构的排列方式，它通常与表面的物理质感相关，如布料的编织方式、墙面的涂鸦或地面的铺砌模式。
- 纹理可以被视为图像中的微观模式，这些模式在一定的空间范围内有规律地重复出现。
- 在频域中，纹理信息可能对应于一定范围的频率成分，通常包括中频信息。
边缘信息：
- 边缘信息指的是图像中亮度变化剧烈的地方，是图像中物体或特征的边界。
- 边缘是图像分析中的基本特征，因为它们往往是物体形状的轮廓，是物体之间以及物体与背景之间的分界线。
- 在频域中，边缘信息通常对应于高频成分，因为边缘代表了图像亮度的快速变化。

在图像处理和计算机视觉中，纹理和边缘是用来提取信息和理解场景的两种重要的视觉线索。它们通常通过不同的算法和技术来检测和分析：

纹理分析可能包括使用滤波器组、纹理描述符（如局部二值模式LBP、灰度共生矩阵GLCM）或深度学习方法来识别和分类纹理模式。
边缘检测则通常涉及使用基于梯度的方法（如Sobel、Canny边缘检测器）来定位图像中亮度变化明显的地方。

因此，纹理和边缘是图像中的两种不同的特征，它们在图像处理和分析中扮演着各自独特的角色。

4.论文阅读

[11]S. Chen, S. Tan, B. Li, and J. Huang, “Automatic detection of objectbased forgery in advanced video,”. IEEE Transactions on Circuits and Systems for Video Technology, vol. 26, no. 11, pp. 2138-2151, 2016.
【11】创建了SYSU-OBJFORG数据集，并提出了一种基于运动残差的时间篡改检测算法。首先，通过视频帧序列的勾结算子生成运动残差帧。然后，通过图像篡改检测算法来检测这些运动残差帧。
在这里插入图片描述

[22]Y. Yao, Y. Q. Shi, S. Weng, and B. Guan, “Deep learning for detection of object-based forgery in advanced video,” Symmetry, vol. 10, no. 1, pp. 3,2017.
[23] L. Chen, Q. Yang, L. Yuan, Y. YAO, Z. ZHANG, and G. WU, “Passive forensic based on spatio-temporal localization of video object removal tampering,” Journal on Communications, vol. 41, no. 7, pp. 110-120, 2020.
在这里插入图片描述

C3D+C2D 五帧做输入的时候好像没什么特殊含义

[24] Q. Yang, D. Yu, Z. Zhang, Y. Yao, and L. Chen, “Spatiotemporal trident networks: detection and localization of object removal tampering in video passive forensics,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 31, no. 10, pp. 4131-4144, 2021.
在这里插入图片描述
时空三叉戟网络考虑到了混合输入帧的问题

时域检测

空域定位
[28] L. Xiong, M. Cao, and Z. Fu, “Forensic of video object removal tamper based on 3D dual-stream network,” Journal on Communications, vol. 42, no. 12, pp. 202-211, 2021.
[29] S. Tan, B. Chen, J. Zeng, B. Li and J. Huang, “Hybrid deep-learning framework for object-based forgery detection in video,” Signal Processing: Image Communication, vol. 105, pp. 116695, 2022.