Binarized Convolutional Landmark Localizers for Human Pose Estimation and Face Alignment with Limite-CSDN博客

本文链接：https://blog.csdn.net/u013548568/article/details/79575444

1、这篇工作是关于网络二值化的工作，作者提出了层级的平行的多尺度的网络结构
2、二值化通常会引起网络性能的下降，与图像分类不同的是作者不是寻求更加有效的二值化的方式，而是去寻求更加新颖的结构
3、
作者的贡献有
1）二值化网络的设计
2）层级的平行的多尺度的残差网络的设计
3）提出的网络结构不仅对二值有效，对real-value同样有效的

4、
针对二值化后hourglass性能下降太多作者设计了新的网络
1）
这里写图片描述
原始的bottleneck结构
2）

这里作者觉得128个channel对于二值化网络表达有限，所以增加了网络的宽度，变成了256，也即wider。虽然性能大提升了很多，但是增加了计算负担
3）

在二值化网络中，channel的数量肯定是受滤波器大小限制的，总共就2的k次方中组合，k是滤波器大小，作者做了多尺度的设计，最左边的分支是和原始bottleneck的尺度相同的，右边的分支就是实现多尺度，为了解决3x3的限制，引入了5x5，将5x5分解成两个3x3。

4）
这里写图片描述
二值化网络中，1x1的卷积的作用是采样滤波器的作用，所以会对性能有影响，所以作者将1x1全部去掉，性能得到了提升

5）
这里写图片描述
综合了前面的三个实验的优点设计了新的网络
二值化网络容易梯度消失，在新的设计的网络里面，有一条路是直接接到最后，也即shortest。
结合之间去掉1x1，增加width,多尺度设计等等有点一起设计了新的网络，之前的网络梯度的传递都是要经过好几个卷积层，再来看新的网络，每一个卷积层都会有一条直接连接到输出的支路。初次之外避免了element-wise层，这样进一步增加了梯度流动，控制了网络的复杂度。

总结：好的梯度流动和层级化的多尺度设计都会有利于网络的性能

5、作者做了很多对比实验，相同参数量的条件下不同网络的性能，以及新设计的网络应用在 real-value网络里面的性能，结果都有提升。对于一般的real-value网络，增加参数量就可以提升性能，但是对于二值化网络却不尽如此，二值化网络要有更好的设计。除此以外，sigmoid损失引入比L2损失要好很多，数据处理的多样性也很重要等等（对于二值化网络）