Fine-grained Detection —— DCL(2022.02.18)
文章:Destruction and Construction Learning for Fine-grained Image Recognition
原文.
简称DCL,包含2个部分内容,RCM、判别器和RAN模块可以完全去掉,几乎没有额外的推理开销:
- 区域混乱机制RCM(Region Confusion Mechanism)
- 区域对其网络RAN(Region Alignment Network)
DCL:细中细,检测关键局部特征,实现细粒度目标检测。
1. Region Confusion Mechanism
作者称其为“破环”模块,目的是注重局部的学习。
将原图A划分为N*N个小的子区域,并将其按照策略打乱,形成新的重组图B。通过对比重组图B和原图A的特征向量关系(点乘),训练分类器。意图最大可能忽略位置信息,让局部特征做主导进行辨别目标属性。
这种做法,作者说会带来噪声问题。作者使用对抗网络中的判别器来区分目标和噪声。目的是让网络摒弃噪声,趋势提炼目标特征。
2. Region Alignment Network
作者称其为“构造”模块,目的是学习各子区域之间的(语义性)关联。
将原图和重组图中的各个子区域与对应的坐标做L1范数差值,锁定子区域中的关键区域。
3. My Thinking
3.1. RCM部分
-
打乱策略可以采纳复用。
-
点乘的方式做度量,得到的是分类器各个点的差异度的总和。作为唯一度量有待商榷。
-
噪声的产生,作者没明说原因。我认为是因为拆分成子区域后,负样本(背景)区域变得更集中,而目标变得更稀疏。所以我认为,这篇文章的做法不适用于目标可拆分的场景和背景特点有明显规则的场景。因为打乱重组后的图容易将单一目标变成多个小目标。
-
判别器如何得来,作者没有明说。我认为大概率是用该场景下大量数据训练出来的,然后将训练好的对抗网络中的判别器单独提出来使用。这就意味着,该方法需要做大量前期工作。
3.2. RAN部分
- 我认为很大概率得出来的关键子区域是原图中目标“重心”的区域。对于细粒度目标的特征在边缘的场景,好像不太适用。
4. My Summary
RCM迫使backbone更关注目标的局部特征,使用前期训练好的对抗网络中的判别器解决RCM带来的噪声问题,使得backbone学得对。
RAN迫使backbone侧重关注目标局部特征中的关键特征。