第六周学习总结

一、SENet

SENet_qq_38701321的博客-CSDN博客

 二、SKNet

Split操作是将原feature map分别通过一个3×3的分组/深度卷积和3×3的空洞卷积(感受野为5×5)生成两个feature map :U1(图中黄色)和U2(图中绿色)。然后将这两个feature map进行相加,生成U。生成的U通过Fgp函数(全局平均池化)生成1×1×C的feature map(图中的s),该feature map通过Ffc函数(全连接层)生成d×1的向量(图中的z),公式如图中所示(δ表示ReLU激活函数,B表示Batch Noramlization,W是一个d×C的维的)。d的取值是由公式d = max(C/r,L)确定,r是一个缩小的比率(与SENet中相似),L表示d的最小值,实验中L的值为32。生成的z通过ac和bc两个函数,并将生成的函数值与原先的U1和U2相乘。由于ac和bc的函数值相加等于1,因此能够实现对分支中的feature map设置权重,因为不同的分支卷积核尺寸不同,因此实现了让网络自己选择合适的卷积核(ac和bc中的A、B矩阵均是需要在训练之前初始化的,其尺寸均为C×d)

 在该模块中,作者使用了多分支卷积网络组卷积空洞卷积以及注意力机制

 1、多分支卷积网络

含有多于一个分支的卷积网络,如下图

 该模块是经典的残差网络模块,使用了双分支结构,跨层连接的那条分支是一条单纯的恒等映射分支。

2、组卷积

组卷积相比于标准卷积,减少了一些参数量。假设feature map的尺寸大小为W×H×C1,卷积核的尺寸为w×h×C1,生成的feature map的尺寸大小为W×H×C2,那么标准卷积的参数量为w×h×C1×C2;如果换为分组卷积,假设分为g组,原feature map和生成的feature map尺寸同上,,那么每组卷积的参数量为w×h×(C1/g)×(C2/g),共有g组,那么总参数量为w×h×C1×C2/g,参数量与标准卷积相比,减少为原来的1/g。


3、空洞卷积

空洞卷积与标准卷积相比,增大了感受野。一般情况下,卷积之后的池化操作缩小feature map的尺寸也能达到增加感受野的效果,但是池化过程会导致信息的丢失,所以引入了空洞卷积操作。下图为Dilation=2时的卷积效果图,当Dilation=2时,3×3的卷积核的感受野为5×5。空洞卷积与标准卷积相比,在不增加参数量的同时增大了感受野。


4、注意力机制

如SENet中的注意力机制模块

preview

三、《Strip Pooling: Rethinking Spatial Pooling for Scene Parsing》

1 、Strip Pooling Module

对于传统的池化操作使用一个方形的运算kernel,而这篇文章是在特征图的宽高尺度上进行长条形的池化操作,即是池化的kernel大小为1 ∗ H , W ∗ 1 ,垂直与水平方向可以表示为:

在得到上面的池化结果之后会将得到的特征使用一个1D的卷积进行调和,之后就是在各自的方向上进行扩展,使其与先前的特征图大小一致,再将两个特征图进行融合:

 

之后,经过sigmoid激活与原特征图进行点乘得到最后的结果。因而整个的运算过程(SPM模块结构)见下图所示:

2、 Mixed Pooling Module 

文章中提出的MPM模块(包含两个子网络,长依赖与短依赖)与之前的PPM模块进行比较有3点不同的地方:

  • 对于长依赖,这里使用文章的strip pooling操作去替换原有的global average pooling操作,下图所示

 

  • 对于短依赖,这里使用轻量化的PPM模块进行设计,解决局部依赖问题,见下图所示

 

  • 对于上面的两个模块,使用了shortcut连接的方式改动

四、HRNet

在HRNet之前,2D人体姿态估计算法是采用(Hourglass/CPN/Simple Baseline等)将高分辨率特征图下采样至低分辨率,再从低分辨率特征图恢复至高分辨率的思路(单次或重复多次),以此过程实现了多尺度特征提取的一个过程。

HRNet在整个过程中保持特征图的高分辨率,但多尺度特征提取是姿态估计模型一定要实现的过程,HRNet是通过在高分辨率特征图主网络逐渐并行加入低分辨率特征图子网络,不同网络实现多尺度融合与特征提取实现的。

1、Hourglass 

2、Cascaded pyramid networks

3、SimpleBaseline 网络结构

 4、HRNet

横向表示模型深度变化,纵向表示特征图尺度变化。第一行为主干网络(特征图为高分辨率),作为第一阶段,并逐渐并行加入分辨率子网络建立更多的阶段(如上图第二行,第三行所示),各并行网络之间相互换信息,实现多尺度融合与特征提取。最终所估计的关键点是在高分辨率主干网络输出。 

HRNet 的优势之处:

  •  HRNet 并行地连接各高分辨率到低分辨率子网络的输出,而不是被较多采用的串行连接. 因此,HRNet 能够一直保持高分辨率表示,而不是采用低分辨率到高分辨率的处理来重构高分辨率表示,故 HRNet 的 heatmap 具有更高的空间精确度.
  •  特征融合一般采用的是,底层特征表示与高层特征表示的聚合融合;而,HRNet 采用的重复性的多尺度融合,基于相同网络深度和相似特征层的低分辨率表示的辅助,来提升高分辨率的表示能力,以使得高分辨率的表示更有助于姿态估计.
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值