作者称,人眼通过扫描informative parts来理解目标定位(也是很常见的说法了)。这样的眼睛快速扫描称为Saccade。以"快”为优势,超越了YOLO和RetinaNet。
由于abstract里直接提到了创新点四个模块the Center Attentive Module, the Corner Attentive Module, the Attention Transitive Module, and the
Aggregation Attentive Module,也说到了saccade,因此直接跳过motivation看method。
methods
整体流程如下:
作者称相比于其他点检测,SaccadeNet解决了基于边缘检测中缺乏整体认知的能力的问题,和基于中心点检测中缺少局部细节的问题。
Center Attentive Module
顾名思义,中心点检测。GT采用Gaussian heatmap而非标准的0,1。在目标点附近的位置拥有较低的惩罚,用高斯权重衰减同时保证半径区域内所有非0点可与GT box生成至少大于IOU阈值为t的bbox(这里完全照搬了Centernet的做法)。损失函数采用focal loss的变体: