Deep learning：四十六(DropConnect简单理解)

最新推荐文章于 2024-11-07 02:30:58 发布

weixin_34113237

最新推荐文章于 2024-11-07 02:30:58 发布

阅读量315

点赞数

文章标签： python

　　和maxout(maxout简单理解)一样，DropConnect也是在ICML2013上发表的，同样也是为了提高Deep Network的泛化能力的，两者都号称是对Dropout(Dropout简单理解)的改进。

　　我们知道，Dropout是在训练过程中以一定概率1-p将隐含层节点的输出值清0，而用bp更新权值时，不再更新与该节点相连的权值。用公式描述如下：

　　其中v是n*1维的列向量，W是d*n维的矩阵，m是个d*1的01列向量，a(x)是一个满足a(0)=0的激发函数形式。这里的m和a(Wv)相乘是对应元素的相乘。

　　而DropConnect的思想也很简单，与Dropout不同的是，它不是随机将隐含层节点的输出清0,而是将节点中的每个与其相连的输入权值以1-p的概率清0。（一个是输出，一个是输入）

　　其表达式如下：

　　两者的区别从下图基本可以看明白：

　　其原理还是很简单，是吧？

　　下面主要来看DropConnect的trainning和inference两部分。

　　training部分和Dropout的training部分很相似，不过在使用DropConnect时，需要对每个example, 每个echo都随机sample一个M矩阵（元素值都是0或1, 俗称mask矩阵）。training部分的算法流程如下：

　　注意：因为DropConnect只能用于全连接的网络层（和dropout一样），如果网络中用到了卷积，则用patch卷积时的隐层节点是不使用DropConnect的，因此上面的流程里有一个Extract feature步骤，该步骤就是网络前面那些非全连接层的传播过程，比如卷积+pooling.

　　DropConnect的inference部分和Dropout不同，在Dropout网络中进行inference时，是将所有的权重W都scale一个系数p(作者证明这种近似在某些场合是有问题的，具体见其paper)。而在对DropConnect进行推理时，采用的是对每个输入（每个隐含层节点连接有多个输入）的权重进行高斯分布的采样。该高斯分布的均值与方差当然与前面的概率值p有关，满足的高斯分布为：