Part one
1、注意力机制:通过添加一层新的权重将图片中关键部分特征强化。一般是在通道或者像素点上操作。
2、自注意力结构:计算相似性得到权重,softmax归一化,最后加权求和。
3、多尺度网络:通过跳层的链接获得更多的感受野。
4、富尺度空间的网络(重点是分组卷积,使用了不同的卷积核),可以感受更多的感受野。
参考:
Part two
1.阅读CVPR 2019 《Selective Kernel Networks》
首先介绍一下SE net,它主要是建立通道之间的特征注意力机制,能够筛选出更好的通道同时抑制效果不好的通道。网络结构SENet块结构如下:
其首先是一个传统卷积,然后将得到的Feature Map全局平均池化,然后两个全连接网络升维再降维(后来一般是1*1卷积),再用Sigmoid将范围限制在01之间,最后在最用到原图上。
然后就是SK net,它是在SE的基础上,设计了针对卷积核的注意力机制。不同大小的卷积核视野不同,这样可以挖掘多尺度的信息。结构如下:
第一部分用不同卷积核对feature map 卷积,然后整个信息融合,再然后就是SE了。
2.阅读Strip Pooling: Rethinking Spatial Pooling for Scene Parsing
常规的NN结构很难复现全部的结构,作者就提出了新的池化核,即1*N的
(1)SPM:对于其全局的水平和垂直都编码。输入的特征图经过水平和竖直条纹池化后变为H×1和1×W,使用求平均的方法,对池化核内的元素值求平均,并以该值作为池化输出值;
(2)MPM:(a)为原始的PPM模块,可以用于捕获特征位置的短距离依赖关系。(b)使用strip pooling的方式,可以捕获更长距离特征之间的依赖关系。MPM分别使用这两个分支生成对应的特征图,然后将两个子模块的输出拼接并用1x1卷积得到最终的输出特征。
3.HRNet:Deep High-Resolution Representation Learning for Human Pose Estimation
大多数方法都是从高分辨率到低分辨率网络产生的低分辨率表征中恢复高分辨率表征
本文提出新框架,从高分辨率子网作为第一阶段始,逐步增加高分辨率到低分辨率的子网,形成更多的阶段,并将多分辨率子网并行连接。在整个过程中,我们通过在并行的多分辨率子网络上反复交换信息来进行多尺度的重复融合。
参考:HRnet详解