Fine-grained Detection —— CAP(2022.02.23)
文章:Context-aware Attentional Pooling (CAP) for Fine-grained Visual Classification
原文.
包含2个部分内容:
- 划分策略IR(Integral Regions)
- 空间结构编码CAP(Context-aware attention)
1. Integral Regions
IR目的是划分出局部子图,得到相应的特征向量。
这部分相对简单,原图经过backbone后得到feature map。原图在送入backbone前会根据划分策略,将原图划分成众多感兴趣区域的子图。这个策略有些像anchor box的生成,只不过anchor不在中心而是左上点。
这部分输出作为CAP的输入。
2. Context-aware attention
CAP目的是提取关键局部的特征向量。
将各个感兴趣区域的特征向量,经过Billinear pooling融合,形成一列具有“语序”的特征向量。然后经过LSTM,筛选出关键的“词”(关键局部特征向量段)。最后输出给分类器。
3. My Thinking
3.1. IR部分
- 策略怎么定的?人为依靠经验定?还是kmeans聚类预处理训练集后晒出来的?或者有先验的其他网络做策略?作者没提,我表示不解。
3.2. CAP部分
- 假设目标的局部特征是小目标,即分辨率过低,那经过backbone、Billinear
pooling后特征向量包含的信息素是否还能供LSTM使用。我表示有待商榷。
4. My Summary
IR迫使原图分解出众多局部特征的特征向量。
CAP将这些特征向量看作“句子”,提取出关键“词”,用于分类。