打卡内容:
1. Bn的公式是什么? bn的具体步骤
Bn公式见正文;
步骤:样本减去均值,再除以标准差。
2. Bn的好处有哪些
(1)Improves gradient flow through the network;
(2)Allows higher learning rates;
(3)Reduces the Strong dependence on initialization;
(4)Acts as a form of regularization in a funny way,and slightly reduces the need for dropout,mabe.
3. 如何验证loss的合理性,对于分类任务学习率哪个区 间比较合适
先让正则化项为0,在加入正则项权重,loss还有略微上升;
1e-3到1e-5,it depends
4. 超参数选择的策略有哪些
CSDN-专业IT技术社区-登录blog.csdn.net https://blog.floydhub.com/guide-to-hyperparameters-search-for-deep-learning-models/blog.floydhub.com交叉验证策略
babysitting、网格搜索、随机搜索、贝叶斯优化
6-4 Batch Normalization
批量归一化:数据归一化的一种,经常被使用。他的目的是在高斯范围内保持激活,让每一个维度都是unit gaussian 。bn的参数是可学习的网络会根据自己的需求学习分布。
它可以改善网络梯度流,让网络在更广的学习率和不同的初始化工作,允许使用更多的激活函数,网络训练更容易,加速训练收敛的速度,有正则化的效果。
除批量归一化之外课中还介绍了网络学习过程,介绍了如何根据loss的情况调整学习率。Loss不下降或者下降很慢,学习率设置过小,Loss为nan说明网络发生了爆炸,学习率设置过大,学习率的范围大概在0.001--0.00001之间。
![aba92905a95e603f27a111274b485ca3.png](https://img-blog.csdnimg.cn/img_convert/aba92905a95e603f27a111274b485ca3.png)
![e61ab1585b0dbcc014c808f6f71c109d.png](https://img-blog.csdnimg.cn/img_convert/e61ab1585b0dbcc014c808f6f71c109d.png)
![2ad2ca9e3a0c3195931ea9909b272a10.png](https://img-blog.csdnimg.cn/img_convert/2ad2ca9e3a0c3195931ea9909b272a10.png)
![ece93aa40ffc8318734dc87f9bf19d1d.png](https://img-blog.csdnimg.cn/img_convert/ece93aa40ffc8318734dc87f9bf19d1d.png)
![311bbf6781057f2b161a47ee82bb8a9f.png](https://img-blog.csdnimg.cn/img_convert/311bbf6781057f2b161a47ee82bb8a9f.png)
![082c40d850bfeca5d9d497a74d3cee91.png](https://img-blog.csdnimg.cn/img_convert/082c40d850bfeca5d9d497a74d3cee91.png)
![a133a58dafe49efd7568afca472ec5b3.png](https://img-blog.csdnimg.cn/img_convert/a133a58dafe49efd7568afca472ec5b3.png)
6-5 Babysitting the Learning Process
![b3a27897f94c2d3d53ed49b1e668e37e.png](https://img-blog.csdnimg.cn/img_convert/b3a27897f94c2d3d53ed49b1e668e37e.png)
![e1920e67875866c6c78451fe5fe6556a.png](https://img-blog.csdnimg.cn/img_convert/e1920e67875866c6c78451fe5fe6556a.png)
![3bcbb38ee07cc75c2d6b2e94418b0f9e.png](https://img-blog.csdnimg.cn/img_convert/3bcbb38ee07cc75c2d6b2e94418b0f9e.png)
![09a94642ac092605a7c720f8cb65b386.png](https://img-blog.csdnimg.cn/img_convert/09a94642ac092605a7c720f8cb65b386.png)
![6fa147321bc6ee25f487736b7079df92.png](https://img-blog.csdnimg.cn/img_convert/6fa147321bc6ee25f487736b7079df92.png)
![2d2f73f6005b6c38c4c934477556e1a2.png](https://img-blog.csdnimg.cn/img_convert/2d2f73f6005b6c38c4c934477556e1a2.png)
![485678de48698de1e552ecd0d2741cdc.png](https://img-blog.csdnimg.cn/img_convert/485678de48698de1e552ecd0d2741cdc.png)
![599ab745f3933abb4ec96699184debad.png](https://img-blog.csdnimg.cn/img_convert/599ab745f3933abb4ec96699184debad.png)
6-6 Hyperparameter Optimization
最后介绍了超参数优化策略。超参数优化建议使用交叉验证策略。这部分内容都需要大家掌握。
![d5db72f03edeb5f4da976575f39cb906.png](https://img-blog.csdnimg.cn/img_convert/d5db72f03edeb5f4da976575f39cb906.png)
![19bcf8554b0cc012078746d4bc15c9c4.png](https://img-blog.csdnimg.cn/img_convert/19bcf8554b0cc012078746d4bc15c9c4.png)
![81b83d05fa7c391e260e0891921a7c33.png](https://img-blog.csdnimg.cn/img_convert/81b83d05fa7c391e260e0891921a7c33.png)
![b51658b322886206b51dd0632e24fccb.png](https://img-blog.csdnimg.cn/img_convert/b51658b322886206b51dd0632e24fccb.png)
![6b88de2895f1644ba111d386c70a6752.png](https://img-blog.csdnimg.cn/img_convert/6b88de2895f1644ba111d386c70a6752.png)
![7201c5ebc23ae808c81735b1f5ffd01a.png](https://img-blog.csdnimg.cn/img_convert/7201c5ebc23ae808c81735b1f5ffd01a.png)
![7ac5488e46a28ddd950898954af1ee74.png](https://img-blog.csdnimg.cn/img_convert/7ac5488e46a28ddd950898954af1ee74.png)
![3394ade5efecf8545e43e5ca767b6b21.png](https://img-blog.csdnimg.cn/img_convert/3394ade5efecf8545e43e5ca767b6b21.png)
![444d7b3bdc0e6bc5ab40ebab782e7084.png](https://img-blog.csdnimg.cn/img_convert/444d7b3bdc0e6bc5ab40ebab782e7084.png)
![2f2a8c8421973901a6d3f942e027340b.png](https://img-blog.csdnimg.cn/img_convert/2f2a8c8421973901a6d3f942e027340b.png)
![f2eee29d9ed7837f7f65fb01ff8a51dc.png](https://img-blog.csdnimg.cn/img_convert/f2eee29d9ed7837f7f65fb01ff8a51dc.png)