卷积神经网络group群卷积以及group lasso

一、group(群卷积)

group(群卷积)的思想最早出现于Alexnet论文:ImageNet Classification with Deep Convolutional Neural Networks,Alex之所以使用群卷积是因为受当时GTX580 GPU现存的限制,不能使用一块GPU训练网络,所以其将网络拆分为两组分别使用1个GPU训练。

如下所示为一个常规的卷积操作 

假设输入特征图的channel为Ci,卷积核大小为W*H,输出特征图的channel为Co,那么该卷积层的参数数量为:Ci*W*H*Co

group卷积就是将输入特征图的channels Ci差分为g个组,每组Ci/g个特征图,为保持原有模型不变,那么每一组的卷积核个数为Co/g,那么总的参数个数为\sum(Ci/g*W*H*Co/g)=Ci*Co*W*H/g 参数变为的原来的1/g,再者group方法可能会保留更多的特征,因为被融合的特征图减少了,如果传统卷积一个卷积核将Ci个特征图融合为了1个,而group是将Ci/g融合为了一个。

二、group lasso

首先在讲解lasso之前先要阐述一下,lasso的全称是Least Absolute Shrinkage and Selection Operator的缩写,用我蹩脚的英语的翻译就是最小绝对值收缩和选择器,他是一种使用L1正则化的线性回归方法,而使用L2正则化的线性回归方法叫做领回归。

从我翻译的直观理解就是lasso可以使参数的对均值变小(收缩)而且还有参数选择的功能,事实上他确实是有这种功能的(参数稀疏化)。首先说的稀疏化操作我们第一时间想到的应该是向损失函数中添加l0正则化项,但是含有l0正则化项的损失函数是不连续且非凸的难以优化的,但是经过数学证明发现L1是L0的最优近似,而且L1是连续的凸函数。

总体上来说我基本是翻译了一下medium上的一篇文章

含有L1和L2正则化项的代价函数可以写成如下形式: 

假设以上公式中的参数都是二维的 ,如下图所示,图中红色部分是为网络的代价函数,而绿色部分为约束条件也就是正则化项的代价函数,其中中心位置的β是最小化代价函数的最优解,L1正则化项是一个菱形区域于网络代价函数橡胶的点也就是说可能的最优解会出现在坐标轴上,会有一个方向上的参数为零,而上升到三维空间中,L1是一个菱形六面体会有更多的参数为零,这是也就起到了参数绝对值收缩以及参数筛选的作用了。

另一个方向理解的化可以从正则化项的倒数以及梯度下降的方面理解:后续待补充

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值