【吴恩达深度学习】测试2-3总结：超参数调整批量标准化

最新推荐文章于 2023-04-28 17:02:56 发布

Queenie7v

最新推荐文章于 2023-04-28 17:02:56 发布

阅读量223

点赞数

分类专栏：吴恩达深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/queenie7v/article/details/105736853

版权

吴恩达深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

超参数调整

1. 超参数

$\alpha$ 学习率
隐藏单元数量
batchsize
$\beta$ （~0.9）
$\beta_1,\beta_2,\epsilon$ (默认 $0.9，0.999，10^{-8}$ 从不调)
层数
学习率衰减

其中学习率最重要，而后面三个影响最小。
做项目时，模型的细微变化，都可能需要重新调试超参数。

2. 搜索超参数

尝试随机值，不用网格搜索，因为不确定哪些超参数更重要。
从粗到细。
采取合适的尺度
EXAMPLE搜索动量超参数 $\beta$ 介于0.9和0.99之间：

r = np.random.rand() #[0,1]
beta = 1 - 10 ** ( - r - 1 ) #[0.9,0.99]

批量标准化

1. 目的：

我们对输入数据X进行归一化处理，同样，我们可以对每个隐藏层标准化 $z^{(i)}$ ,使其有固定的均值和方差，可以是0，1，也可以是任意值，这样能够加快梯度下降的求解速度，即提升模型的收敛速度。

2. 实现：

计算均值和方差 $u,\sigma^2$
由于在测试时，一次只处理一个样本，因此 $u,\sigma^2$ 的计算要用指数加权平均来估测。
标准化 $z_{norm}^{(i)}=\frac{z^{(i)}-u}{\sqrt{\sigma^2+\epsilon}}$
用 $\gamma,\beta$ 参数构造平均值和方差 $\widetilde{z}=\gamma z_{norm}^{(i)}+\beta$
网络中的参数，由原来的 $w, b$ 变成 $w,\gamma,\beta$ ,由于 $z$ 都要先进行标准化处理，b会抵消掉，不会有影响。

3. 优点：

有一点正则化的作用，主要还是加速学习。
前层变化不大，使后层学习更加容易。
类似于dropout对每层增加噪音，使后面的单元不过分依赖任何一个单元，可以和droupout一起加强正则化效果。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【吴恩达深度学习】测试2-3总结：超参数调整批量标准化

超参数调整超参数α\alphaα 学习率隐藏单元数量batchsizeβ\betaβ （~0.9）β1,β2,ϵ\beta_1,\beta_2,\epsilonβ1,β2,ϵ (默认0.9，0.999，10−80.9，0.999，10^{-8}0.9，0.999，10−8从不调)层数学习率衰减其中学习率最重要，而后面三个影响最小。搜索超参数尝试随...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。