论文:Representative Forgery Mining for Fake Face Detection

Tags: 注意力机制, 神经网络, 视频检测
年份: 21年cvpr
论文地址:https://arxiv.org/abs/2104.06609
代码:https://github.com/crywang/RFM

摘要

提出了一个基于注意力的数据增强框架来指导检测器细化和扩大其注意力。我们的方法跟踪和遮挡面部Top-N敏感区域,鼓励检测器深入挖掘之前忽略的区域,以获得更有代表性的伪造结果。

介绍

人脸特征点检测(vanilla CNN)倾向于从脸部的有限区域内检测,而人类倾向于整个面部。

现在三个方向:

a)通过提取由操作技术缺陷产生的数字指纹,对cnn生成的面部图像实现了先进的泛化性能;

b)部分作品将人脸划分为多个patch并进行独立检测,强制优化了探测器对假脸的感知场。

c)利用精心设计的训练数据集,利用同源真假人脸之间的差异来指导检测器学习假人脸上的伪造信息,从而进一步实现伪造可视化。

方法

基于注意力的数据增强方法:代表伪造挖掘(RFM),通过在训练过程中精炼训练数据来解决有限注意力问题。

包括两个步骤:

1)利用检测器的梯度生成图像级的伪造注意图(FAM),可以精确定位面部的敏感区域;

2)利用可疑伪造消除(Suspicious Forgery erase, SFE)有意遮挡面部的Top-N敏感区域。

该方法通过将检测器的注意力从过度敏感的面部区域解耦,实现了具有先进水平的检测性能,并显著保持了对仅包含少量技术伪造的人脸的检测性能。

RFM过程:

在这里插入图片描述

分为三个部分。首先(在步骤1、2中),我们为单个小批的每个原始图像生成FAM。然后(在步骤3和步骤4中),我们利用SFE在之前生成的FAMs的指导下对原始图像进行擦除。最后(在步骤5和步骤6中),我们使用被擦除的图像作为输入来训练检测器

  • FAM

找到最敏感的区域,将最敏感的区域定义为扰动对检测结果影响最大的区域。

正向传播,检测器输入一张人脸图像I,输出两个对数Oreal和Ofake衡量图片真假。结果由两个对数的相对大小决定。 Δ I O r e a l , Δ I O f a k e \Delta_IO_{real},\Delta_IO_{fake} ΔIOreal,ΔIOfake代表微小的噪声对输出的影响,两者之间的最大差值视为FAM。代表扰动对检测结果的影响。

FAM Map: M a p 1 = m a x ( a b s ( Δ I O f a k e − Δ I O r e a l ) ) = m a x ( Δ I ( a b s ( O f a k e − O r e a l ) ) ) Map_1=max(abs(\Delta_IO_{fake}-\Delta_IO_{real}))=max(\Delta_I(abs(O_{fake}-O_{real}))) Map1=max(abs(ΔIOfakeΔIOreal))=max(ΔI(abs(OfakeOreal)))

函数max(·)计算沿通道轴的最大值,函数abs(·)得到每个像素的绝对值

  • FAM和CAM的区别

    FAM定位检测器敏感的区域,而Class Activation Mapping突出显示检测器用于决策的区域。另一方面,FAM在图像级生成map,而Class Activation Mapping基于网络最后的卷积层计算map

  • 可疑伪造擦除

擦除方法SFE,遮挡FAM计算的Top-N敏感区域。

  1. 首先以小批量的方式为每张图像生成FAM,FAM和输入图像的大小都可以假设为H×W,
  2. 对于每张图像,我们根据之前生成的对应FAM中的值降序排序坐标。接下来,按照上面计算的顺序将每个像素视为锚点。
  3. 对于每个锚点,我们使用随机整数来形成一个矩形块,尺寸小于 H e × W e ( H e ≤ H , W e ≤ W ) H_e\times W_e(H_e\le H,W_e\le W) He×We(HeH,WeW)对之前未被遮挡的锚点进行遮挡.
  4. 重复遮挡过程,直到每个图像被n个块遮挡。

优点:

1)在FAM的指导下精确遮挡面部敏感区域;

2)利用多个块灵活擦除不同位置的伪造区域,尽可能多地保留面部区域;

3)不泄露额外信息给检测器,防止检测器对擦除块的形状或位置过拟合

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
本火锅店点餐系统采用Java语言和Vue技术,框架采用SSM,搭配Mysql数据库,运行在Idea里,采用小程序模式。本火锅店点餐系统提供管理员、用户两种角色的服务。总的功能包括菜品的查询、菜品的购买、餐桌预定和订单管理。本系统可以帮助管理员更新菜品信息和管理订单信息,帮助用户实现在线的点餐方式,并可以实现餐桌预定。本系统采用成熟技术开发可以完成点餐管理的相关工作。 本系统的功能围绕用户、管理员两种权限设计。根据不同权限的不同需求设计出更符合用户要求的功能。本系统中管理员主要负责审核管理用户,发布分享新的菜品,审核用户的订餐信息和餐桌预定信息等,用户可以对需要的菜品进行购买、预定餐桌等。用户可以管理个人资料、查询菜品、在线点餐和预定餐桌、管理订单等,用户的个人资料是由管理员添加用户资料时产生,用户的订单内容由用户在购买菜品时产生,用户预定信息由用户在预定餐桌操作时产生。 本系统的功能设计为管理员、用户两部分。管理员为菜品管理、菜品分类管理、用户管理、订单管理等,用户的功能为查询菜品,在线点餐、预定餐桌、管理个人信息等。 管理员负责用户信息的删除和管理,用户的姓名和手机号都可以由管理员在此功能里看到。管理员可以对菜品的信息进行管理、审核。本功能可以实现菜品的定时更新和审核管理。本功能包括查询餐桌,也可以发布新的餐桌信息。管理员可以查询已预定的餐桌,并进行审核。管理员可以管理公告和系统的轮播图,可以安排活动。管理员可以对个人的资料进行修改和管理,管理员还可以在本功能里修改密码。管理员可以查询用户的订单,并完成菜品的安排。 当用户登录进系统后可以修改自己的资料,可以使自己信息的保持正确性。还可以修改密码。用户可以浏览所有的菜品,可以查看详细的菜品内容,也可以进行菜品的点餐。在本功能里用户可以进行点餐。用户可以浏览没有预定出去的餐桌,选择合适的餐桌可以进行预定。用户可以管理购物车里的菜品。用户可以管理自己的订单,在订单管理界面里也可以进行查询操作。
### 回答1: Triangulation Learning Network (TLN) 是一个用于从单目图像到立体图像的三维物体检测的算法,其存在一些主要问题,包括: 1. 训练数据缺乏:TLN 算法需要大量的训练数据才能准确地预测三维物体的位置和姿态。但是,由于三维物体检测数据集的获取成本很高,因此当前可用的数据集相对较少,这可能会影响算法的性能。 2. 姿态估计不准确:TLN 算法依赖于对相机姿态的准确估计,但是在实际应用中,姿态估计可能会出现误差。这些误差可能会导致算法无法准确地确定物体的三维位置和姿态。 3. 光照和背景干扰:TLN 算法对光照和背景的变化敏感,这可能会对其检测性能产生负面影响。在不同光照条件和背景下进行测试时,算法可能会出现误报或漏报。 4. 计算复杂度高:TLN 算法需要进行复杂的三角测量和卷积计算,因此需要较高的计算资源。这可能会限制算法在实时应用中的使用。 总之,尽管TLN 算法在三维物体检测方面取得了一些进展,但是它仍然面临着一些挑战和限制,需要进一步研究和改进。 ### 回答2: Triangulation Learning Network (TLN) is a type of deep learning model used for monocular to stereo 3D object detection. However, there are several main problems that currently exist with this approach. 首先,monocular-based 3D object detection methods, including TLN, heavily rely on depth estimation from a single image. This poses a challenge because estimating accurate depth information from a monocular image is inherently difficult. Monocular depth estimation is an ill-posed problem, as there are multiple possible depth solutions for a single input image. Therefore, the quality of depth estimation directly affects the accuracy of 3D object detection, and the current performance of monocular-based methods is still limited due to inaccurate depth estimation. 其次,TLN relies on stereo vision to improve the accuracy of 3D object detection. However, stereo vision has its limitations as well. It requires the presence of two or more cameras with known spatial calibration, which can be expensive and cumbersome to implement in real-world scenarios. Moreover, in challenging environments with poor lighting conditions or occlusions, the accuracy of stereo vision-based methods can be significantly affected. 此外,TLN suffers from the problem of ambiguous depth inference. Even with accurate depth estimation, it is still challenging to determine the exact 3D position of an object. This is because an object can have multiple possible 3D positions that are consistent with the observed 2D image. It becomes even more complex when multiple objects overlap or occlude each other, leading to further ambiguities in 3D object detection results. 最后,TLN requires a large amount of training data to achieve satisfactory performance. Collecting and annotating such data, especially for stereo 3D object detection, can be time-consuming, costly, and error-prone. This limits the scalability and practicality of TLN, as acquiring a diverse and representative dataset for training can be challenging. In summary, the main problems currently existing with Triangulation Learning Network (TLN) for monocular to stereo 3D object detection are inaccurate depth estimation, limitations of stereo vision, ambiguous depth inference, and the requirement for a large amount of training data. Addressing these challenges is essential for improving the accuracy, robustness, and practicality of TLN-based 3D object detection methods. ### 回答3: 目前Triangulation Learning Network: from Monocular to Stereo 3D Object Detection存在以下主要问题: 1. 数据需求高:从单目到立体的3D物体检测需要更多的数据支持。单目图像中的物体深度信息是模糊的,缺乏对立体视觉中物体准确深度的直接观测。因此,为了训练Triangulation Learning Network,需要大量的立体图像数据集,这样的数据集很难获得且成本较高。 2. 精度限制:尽管Triangulation Learning Network提供了改善单目到立体3D物体检测的方法,但其精度仍然受到一些限制。由于立体视觉中的散射和遮挡问题,物体表面的纹理信息可能会受到影响并导致深度估计的误差。此外,图像中物体的姿态和形状也会对准确的深度估计产生影响。 3. 依赖立体匹配:Triangulation Learning Network的核心思想是通过使用立体图像中的匹配点将单目图像的深度信息转换为立体深度。然而,立体匹配本身是一个复杂和计算密集的任务,尤其在具有高度纹理变化或遮挡的场景中,可能存在匹配错误的情况。 4. 硬件要求高:Triangulation Learning Network需要用于获取立体图像的专门的硬件设备,如立体相机或深度相机。这些硬件设备的成本较高,因此部署这种方法可能会面临一定的技术和经济挑战。 综上所述,尽管Triangulation Learning Network提供了一种从单目到立体的3D物体检测方法,但仍然存在着数据需求高、精度限制、依赖立体匹配和硬件要求高等问题。随着技术的进步,相信这些问题将逐渐得到解决,从而更好地推动Triangulation Learning Network的发展和应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值