【无标题】Hyperparameter Tuning--Andrew Ng课程笔记

本文探讨了深度学习中减少过拟合的正则化技术,重点讲解了L1和L2正则化的区别,以及它们如何影响模型的稳定性和复杂度。L2正则化倾向于产生更平滑的权重,防止过拟合,而L1正则化可能导致权重稀疏,增加模型解释性。此外,还提到了Dropout作为另一种强大的正则化方法,通过随机忽略神经元来避免过拟合。文章强调了λ参数的重要性,用于控制正则化的强度,并通过交叉验证选择合适的值。
摘要由CSDN通过智能技术生成

Improving Deep Neural Networks: Hyperparameter Tuning, Regularization and Optimization

This course from Deeplearning.AI

Studying notes

 

In logestic regression, because W related with a lot paremeter and b is just a number , so andrew will ignore b, but you can if you want .

L2 regularization。Andrew 表示L2是最常见的 regularization. 正则化。

一下两篇说明了正则化。

什么是 L1/L2 正则化 (Regularization) - 知乎

 最常见的L2 regrelization 是参数的平方,而L1是参数的绝对值

 

(插播一条概念: overfitting 中文名字叫 过拟合)

这里的参数是指原方程式的参数啊,注意!!

“L2 针对于这种变动, 白点的移动不会太大, 而 L1的白点则可能跳到许多不同的地方 , 因为这些地方的总误差都是差不多的. 侧面说明了 L1 解的不稳定性“。从图像可以了解到l1的不稳定性。从方程式的复杂程度也可以理解。如果方程式本身越简单,证明‘碰巧’遇到相同具体的情况会变多。然而越复杂的方程式,这种碰巧发生的程度和概率也会越低。不知道这样理解可不可以?

 anyway,反正就是l2更加精准,而l1 发生碰巧的情况更多,从而产生误差的可能性更多。

 

最后,为了控制这种正规化的强度, 我们会加上一个参数 lambda, 并且通过 交叉验证 cross validation 来选择比较好的 lambda. 这时, 为了统一化这类型的正则化方法, 我们还会使用 p 来代表对参数的正则化程度. 这就是这一系列正则化方法的最终的表达形式啦.

lambda 是另外一个需要turn的parameter。 但是这里我们称呼他为lambd, 因为lambda本身是python里面的一个参数,为了不冲突,我们用lambd。

另一个引入的概念是Frobunius Norm.

先说结论,  lambd 和w 是反向变化的 。

 

why regrenalization reduce overfitting?

结论:因为让他更加偏向于线性方程式。

第三章: Another powerful regrelization is drop out regrenalization, the most comman one is 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值