特征金字塔,L表示金字塔层数(这里为3),reisize到中间大小的特征可以表示为:
H,W,C分别表示特征的高、宽和维度,因为要分3部分做attention操作,可以把spatial部分的H和W 归为一个维度用s表示
尺度感知、空间感知、任务感知的attention操作可以表示为:
PI表示attention函数。
尺度attention比较好理解,就是对每一个尺度对应的特征 做avg-pooling操作
这种思想跟尺度相关滤波的一篇文章很相似《Accurate Scale Estimation for Robust Visual Tracking》。
核心思想是在deformable conv结果上通过学习一个置信度系数
Dynamic relu操作
详细信息可参考论文《Dynamic ReLU》