深度学习 loss下降后上升在下降_深度之眼《李飞飞斯坦福CS231n计算机视觉课训练营》第七期】第五周【任务1】训练神经网络(一）续...

最新推荐文章于 2023-11-08 17:21:10 发布

weixin_39895684

最新推荐文章于 2023-11-08 17:21:10 发布

阅读量101

点赞数

文章标签：深度学习 loss下降后上升在下降

打卡内容：

1. Bn的公式是什么? bn的具体步骤

Bn公式见正文；

步骤：样本减去均值，再除以标准差。

2. Bn的好处有哪些

（1）Improves gradient flow through the network；

（2）Allows higher learning rates；

（3）Reduces the Strong dependence on initialization；

（4）Acts as a form of regularization in a funny way,and slightly reduces the need for dropout,mabe.

3. 如何验证loss的合理性，对于分类任务学习率哪个区间比较合适

先让正则化项为0，在加入正则项权重，loss还有略微上升；

1e-3到1e-5,it depends

4. 超参数选择的策略有哪些

CSDN-专业IT技术社区-登录blog.csdn.net https://blog.floydhub.com/guide-to-hyperparameters-search-for-deep-learning-models/blog.floydhub.com

交叉验证策略

babysitting、网格搜索、随机搜索、贝叶斯优化

6-4 Batch Normalization

批量归一化：数据归一化的一种，经常被使用。他的目的是在高斯范围内保持激活，让每一个维度都是unit gaussian 。bn的参数是可学习的网络会根据自己的需求学习分布。

它可以改善网络梯度流，让网络在更广的学习率和不同的初始化工作,允许使用更多的激活函数，网络训练更容易，加速训练收敛的速度，有正则化的效果。

除批量归一化之外课中还介绍了网络学习过程，介绍了如何根据loss的情况调整学习率。Loss不下降或者下降很慢，学习率设置过小，Loss为nan说明网络发生了爆炸，学习率设置过大，学习率的范围大概在0.001--0.00001之间。

6-5 Babysitting the Learning Process

6-6 Hyperparameter Optimization

最后介绍了超参数优化策略。超参数优化建议使用交叉验证策略。这部分内容都需要大家掌握。

weixin_39895684

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习 loss下降后上升在下降_深度之眼《李飞飞斯坦福CS231n计算机视觉课训练营》第七期】第五周【任务1】训练神经网络(一）续...

打卡内容：1. Bn的公式是什么? bn的具体步骤Bn公式见正文；步骤：样本减去均值，再除以标准差。2. Bn的好处有哪些（1）Improves gradient flow through the network；（2）Allows higher learning rates；（3）Reduces the Strong dependence on initialization；（4）Acts as...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。