对 CNN 中 dropout layer 的理解

monster222222

于 2015-04-13 19:54:04 发布

阅读量5w

点赞数 17

分类专栏：学习文章标签： cnn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012702874/article/details/45030991

版权

dropout layer的目的是为了防止CNN 过拟合。那么为什么可以有效的防止过拟合呢？

首先，想象我们现在只训练一个特定的网络，当迭代次数增多的时候，可能出现网络对训练集拟合的很好（在训练集上loss很小），但是对验证集的拟合程度很差的情况。所以，我们有了这样的想法：可不可以让每次跌代随机的去更新网络参数（weights），引入这样的随机性就可以增加网络generalize 的能力。所以就有了dropout 。

在训练的时候，我们只需要按一定的概率（retaining probability）p 来对weight layer 的参数进行随机采样，将这个子网络作为此次更新的目标网络。可以想象，如果整个网络有n个参数，那么我们可用的子网络个数为 2^n 。并且，当n很大时，每次迭代更新使用的子网络基本上不会重复，从而避免了某一个网络被过分的拟合到训练集上。

那么测试的时候怎么办呢？一种最naive的方法是，我们把 2^n 个子网络都用来做测试，然后以某种 voting 机制将所有结果结合一下（比如说平均一下下），然后得到最终的结果。但是，由于n实在是太大了，这种方法实际中完全不可行！

所以有人提出，那我做一个大致的估计不就得了，我从2^n个网络中随机选取 m 个网络做测试，最后在用某种voting 机制得到最终的预测结果。这种想法当然可行，当m很大时但又远小于2^n时，能够很好的逼近原2^n个网络结合起来的预测结果。但是，有没有更好的办法呢？ of course！那就是d

最低0.47元/天解锁文章

博客等级

码龄12年

12
原创

21
点赞

52
收藏

8
粉丝

关注

私信

热门文章

分类专栏

技术 2篇
学习 11篇

展开全部收起

最新评论

对 CNN 中 dropout layer 的理解
yinshengwang 回复 zhangxinyu11021130: caffe 在prototxt设置的是dropout_ratio,也就是隐藏率，而博主的文中p是没有被隐藏的比率，所以博主的X/p 和caffe中的x/(1-p)是一个意思，只不过他俩的p的含义不同，结果是一样的。
对 CNN 中 dropout layer 的理解
yinshengwang: 输入是X / p 为什么是乘以这个p呢
对 CNN 中 dropout layer 的理解
rainbow想要offer: 楼主，请问在测试的时候应该怎么去掉dropout层呢？我再matlab里面调用的。
对 CNN 中 dropout layer 的理解
zhangxinyu11021130 回复 qq_24693721: 你好，我看的也是，确实是，caffe训练的时候将输出的值都变成了x/(1-p)，这样的话，在测试的时候，就可以直接输出了。
对 CNN 中 dropout layer 的理解
qq_24693721: 博主你好，我在看caffe的代码时发现和您说的不一样，如下： if (this->phase_ == TRAIN) { // Create random numbers caffe_rng_bernoulli(count, 1. - threshold_, mask); for (int i = 0; i < count; ++i) { top_data[i] = bottom_data[i] * mask[i] * scale_; } } else { caffe_copy(bottom[0]->count(), bottom_data, top_data); } caffe在测试时是直接把前一层的特征复制到下一层了，不知道是不是我遗漏了什么，请您指正。

最新文章

目录

展开全部

收起

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。