吴恩达深度学习02-3.2 为超参数选择合适的范围

最新推荐文章于 2024-01-27 18:40:06 发布

CtrlZ1

最新推荐文章于 2024-01-27 18:40:06 发布

阅读量640

点赞数 1

分类专栏：吴恩达深度学习课程文章标签：深度学习 python 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41076797/article/details/110881884

版权

吴恩达深度学习课程专栏收录该内容

15 篇文章 1 订阅

订阅专栏

目录

选择范围
解决措施

选择范围

超参数的范围选择好像是一件很简单的事情，给定我一个参数的区间，对区间内的点挨个试不就知道了？
事实上，并不是这样的，对于不同的参数，上述措施，并不总是对的。

对于上面两个参数：隐藏单元的数量和层数，采用均匀取值的方法貌似是合理的。
但是对于另一些参数，上述策略是不合理的，例如学习率α

倘若学习率取值范围是0.0001到1，那么很显然，在这个区间上，有约90%的资源用在0.1到1这个区间上，只有约10%的资源在0.0001到0.1这个区间上。
但事实上，对于学习率这个特殊的参数来说，0.0001到0.1这个区间应该投入更大的资源去尝试，也就是说，它尽管取值范围是0.0001到1，但是其值得投入的区间是不均匀的。

解决措施

对于学习率α这类特殊的参数，我们可以用对数标尺来进行相对均匀的取值。

对区间两边取对数之后，区间变成了-4到0，在-4到0区间内均匀取值，就做到了对于上图第二个轴的均匀取值，此时0.1到1只占用约25%的资源，对于α这个参数来说是合适的，因为它的大部分合适的值都处0.0001到0.1之间。
另一个比较难处理的参数是β

如图所示，对于0.9到0.999的区间，有1-β处于0.1到0.001的范围，对这个范围，我们使用了对数标尺，从而使得在0.9到0.99和0.99到0.999区间投入的资源是一样的。
为什么要这样做呢？因为当β接近于1时，所得结果的灵敏度会变化，即便β有微小的变化，也能对于结果产生巨大的影响。为什么这么说呢？还记得β参数是干嘛的嘛，它是指数加权平均法中的参数，而1/(1-β)是其大约平均点的数量。那么我们看上图的左下方，当β从0.9000变化到0.9005时，其实对于结果的影响并不大，因为1/(1-β)仅仅是从10变化到了10.05，其平均的点的数量还基本是10，但是当β从0.999变化到0.9995的时候，它平均的点的数量，从1000变化到了2000，设想一下指数加权平均的图像变化该有多么大！你觉得如果用正常标尺来均匀取值的话，对于结果的影响是均匀的嘛？！（有关指数加权平均请移步：https://blog.csdn.net/qq_41076797/article/details/110768164），因此，不能使用平常尺度进行取值，而是需要在β接近于1的时候进行密集的取值！，只有这样才能使指数加权平均法平均的点的个数慢慢增加，而不是像刚才的例子一样，一下子从1000变化到2000。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
3
评论
吴恩达深度学习02-3.2 为超参数选择合适的范围

目录选择范围解决措施选择范围超参数的范围选择好像是一件很简单的事情，给定我一个参数的区间，对区间内的点挨个试不就知道了？事实上，并不是这样的，对于不同的参数，上述措施，并不总是对的。对于上面两个参数：隐藏单元的数量和层数，采用均匀取值的方法貌似是合理的。但是对于另一些参数，上述策略是不合理的，例如学习率α倘若学习率取值范围是0.0001到1，那么很显然，在这个区间上，有约90%的资源用在0.1到1这个区间上，只有约10%的资源在0.0001到0.1这个区间上。但事实上，对于学习率这个特殊
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

CtrlZ1 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。