代码链接见文末
1.数据预处理
数据预处理部分比较常规,进行了一下裁剪和色彩增强操作,比较简单,不在多说。另外,官方github上提供了数据
2.网络结构
全局特征提取
首先,为了节省运算,经过卷积对特征图进行下采样,下采样至64*64大小,然后将结果输入堆叠的Gate Aixal Attention中,进行特征提取。
Gate Aixal Attention:
Aixal Attention分别对H轴和W轴进行自注意力机制运算,具体过程为:
- 首先经过线性投影得到q,k,v,需要注意的是q为8个通道,k为8个通道,v为16个通道,因为v要汇集两个轴的信息。
- 随机初始化可以学习的位置编码r,维度为4,H,W,其中q的维度为1,H,W,K的维度为1,H,W,V的维度为2,H,W
- 如下图所示,首先求得qk,qr,kr,并对qr和kr使用Gk,Gq抑制因子对qr和kr的影响进行抑制。然后汇集qk和qr、kr的信息,具体为先拼接再求和,最后经过softmax归一化得到注意力权重
- 求得qkv和qkr,并使用门控抑制因子进行抑制,然后融合特征和位置编码(先拼接再求和)得到注意力计算结果