![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
调参技巧
zhangztSky
这个作者很懒,什么都没留下…
展开
-
batch梯度下降法、mini-batch、SGD
首先,如果训练集较小,直接使用batch梯度下降法,样本集较小就没必要使用mini-batch梯度下降法,你可以快速处理整个训练集,所以使用batch梯度下降法也很好,这里的少是说小于2000个样本,这样比较适合使用batch梯度下降法。不然,样本数目较大的话,一般的mini-batch大小为64到512,考虑到电脑内存设置和使用的方式,如果mini-batch大小是2的次方,代码会运行地快一些,64就是2的6次方,以此类推,128是2的7次方,256是2的8次方,512是2的9次方。所以我经常把mini-原创 2020-07-25 13:26:33 · 317 阅读 · 0 评论 -
Gradientcheck梯度检验
对于求梯度的公式为什么呢除以2 ϵ建议从泰勒展开去理解,二阶精度更高。参考:梯度检验原创 2020-07-25 13:06:50 · 120 阅读 · 0 评论 -
深度学习调参之Early stopping
在机器学习中,超参数激增,选出可行的算法也变得越来越复杂。我发现,如果我们用一组工具优化代价函数J,机器学习就会变得更简单,在重点优化代价函数时,你只需要留意w和b,J(w,b)的值越小越好,你只需要想办法减小这个值,其它的不用关注。还要注意过拟合。但early stopping的主要缺点就是你不能独立地处理这两个问题,因为提早停止梯度下降,也就是停止了优化代价函数,因为现在你不再尝试降低代价函数,所以代价函数的值可能不够小,同时你又希望不出现过拟合,你没有采取不同的方式来解决这两个问题,而是用一种方法同原创 2020-07-25 10:03:04 · 965 阅读 · 0 评论 -
深度学习调参之dropout
什么是dropoutdropout被正式地作为一种正则化的替代形式,L2正则化对不同权重的衰减是不同的,它取决于倍增的激活函数的大小。dropout的功能类似于正则化,与L2正则化不同的是,被应用的方式不同,dropout也会有所不同,甚至更适用于不同的输入范围。注意keep-prob的值是1,意味着保留所有单元,并且不在这一层使用dropout,对于有可能出现过拟合,且含有诸多参数的层,我们可以把keep-prob设置成比较小的值,以便应用更强大的dropout,有点像在处理正则化的正则化参数,我们原创 2020-07-25 09:32:54 · 2907 阅读 · 0 评论