Fine-grained Detection —— DCL

DCL是一种用于细粒度图像识别的方法,包括区域混乱机制(RCM)和区域对其网络(RAN)两部分。RCM通过打乱图像子区域,使网络关注局部特征,但可能引入噪声,此时利用判别器消除。RAN则通过子区域对齐寻找关键区域。这种方法强调了目标的局部特征学习,但可能不适于目标可拆分或背景规则明显的场景。
摘要由CSDN通过智能技术生成

文章:Destruction and Construction Learning for Fine-grained Image Recognition
原文.
在这里插入图片描述
简称DCL,包含2个部分内容,RCM、判别器和RAN模块可以完全去掉,几乎没有额外的推理开销:

  1. 区域混乱机制RCM(Region Confusion Mechanism)
  2. 区域对其网络RAN(Region Alignment Network)

DCL:细中细,检测关键局部特征,实现细粒度目标检测。

1. Region Confusion Mechanism

作者称其为“破环”模块,目的是注重局部的学习

将原图A划分为N*N个小的子区域,并将其按照策略打乱,形成新的重组图B。通过对比重组图B和原图A的特征向量关系(点乘),训练分类器。意图最大可能忽略位置信息,让局部特征做主导进行辨别目标属性。
在这里插入图片描述
这种做法,作者说会带来噪声问题。作者使用对抗网络中的判别器来区分目标和噪声。目的是让网络摒弃噪声,趋势提炼目标特征

2. Region Alignment Network

作者称其为“构造”模块,目的是学习各子区域之间的(语义性)关联

将原图和重组图中的各个子区域与对应的坐标做L1范数差值,锁定子区域中的关键区域。

3. My Thinking

3.1. RCM部分

  • 打乱策略可以采纳复用。

  • 点乘的方式做度量,得到的是分类器各个点的差异度的总和。作为唯一度量有待商榷。

  • 噪声的产生,作者没明说原因。我认为是因为拆分成子区域后,负样本(背景)区域变得更集中,而目标变得更稀疏。所以我认为,这篇文章的做法不适用于目标可拆分的场景和背景特点有明显规则的场景。因为打乱重组后的图容易将单一目标变成多个小目标。

  • 判别器如何得来,作者没有明说。我认为大概率是用该场景下大量数据训练出来的,然后将训练好的对抗网络中的判别器单独提出来使用。这就意味着,该方法需要做大量前期工作

3.2. RAN部分

  • 我认为很大概率得出来的关键子区域是原图中目标“重心”的区域。对于细粒度目标的特征在边缘的场景,好像不太适用。

4. My Summary

RCM迫使backbone更关注目标的局部特征,使用前期训练好的对抗网络中的判别器解决RCM带来的噪声问题,使得backbone学得对。

RAN迫使backbone侧重关注目标局部特征中的关键特征。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值