Binarized Convolutional Landmark Localizers for Human Pose Estimation and Face Alignment with Limite

1、这篇工作是关于网络二值化的工作,作者提出了层级的平行的多尺度的网络结构
2、二值化通常会引起网络性能的下降,与图像分类不同的是作者不是寻求更加有效的二值化的方式,而是去寻求更加新颖的结构
3、
作者的贡献有
1)二值化网络的设计
2)层级的平行的多尺度的残差网络的设计
3)提出的网络结构不仅对二值有效,对real-value同样有效的

4、
针对二值化后hourglass性能下降太多作者设计了新的网络
1)
这里写图片描述
原始的bottleneck结构
2)
这里写图片描述
这里作者觉得128个channel对于二值化网络表达有限,所以增加了网络的宽度,变成了256,也即wider。虽然性能大提升了很多,但是增加了计算负担
3)
这里写图片描述
在二值化网络中,channel的数量肯定是受滤波器大小限制的,总共就2的k次方中组合,k是滤波器大小,作者做了多尺度的设计,最左边的分支是和原始bottleneck的尺度相同的,右边的分支就是实现多尺度,为了解决3x3的限制,引入了5x5,将5x5分解成两个3x3。

4)
这里写图片描述
二值化网络中,1x1的卷积的作用是采样滤波器的作用,所以会对性能有影响,所以作者将1x1全部去掉,性能得到了提升

5)
这里写图片描述
综合了前面的三个实验的优点设计了新的网络
二值化网络容易梯度消失,在新的设计的网络里面,有一条路是直接接到最后,也即shortest。
结合之间去掉1x1,增加width,多尺度设计等等有点一起设计了新的网络,之前的网络梯度的传递都是要经过好几个卷积层,再来看新的网络,每一个卷积层都会有一条直接连接到输出的支路。初次之外避免了element-wise层,这样进一步增加了梯度流动,控制了网络的复杂度。

总结:好的梯度流动和层级化的多尺度设计都会有利于网络的性能

5、作者做了很多对比实验,相同参数量的条件下不同网络的性能,以及新设计的网络应用在 real-value网络里面的性能,结果都有提升。对于一般的real-value网络,增加参数量就可以提升性能,但是对于二值化网络却不尽如此,二值化网络要有更好的设计。除此以外,sigmoid损失引入比L2损失要好很多,数据处理的多样性也很重要等等(对于二值化网络)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值