【无标题】Hyperparameter Tuning--Andrew Ng课程笔记

最新推荐文章于 2024-01-28 14:33:53 发布

AliceY10

最新推荐文章于 2024-01-28 14:33:53 发布

阅读量228

点赞数

分类专栏： Cousera 刷课文章标签：深度优先广度优先算法数据结构逻辑回归

本文链接：https://blog.csdn.net/AliceY10/article/details/124162350

版权

Cousera 刷课专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文探讨了深度学习中减少过拟合的正则化技术，重点讲解了L1和L2正则化的区别，以及它们如何影响模型的稳定性和复杂度。L2正则化倾向于产生更平滑的权重，防止过拟合，而L1正则化可能导致权重稀疏，增加模型解释性。此外，还提到了Dropout作为另一种强大的正则化方法，通过随机忽略神经元来避免过拟合。文章强调了λ参数的重要性，用于控制正则化的强度，并通过交叉验证选择合适的值。

摘要由CSDN通过智能技术生成

Improving Deep Neural Networks: Hyperparameter Tuning, Regularization and Optimization

This course from Deeplearning.AI

Studying notes

In logestic regression, because W related with a lot paremeter and b is just a number , so andrew will ignore b, but you can if you want .

L2 regularization。Andrew 表示L2是最常见的 regularization. 正则化。

一下两篇说明了正则化。

什么是 L1/L2 正则化 (Regularization) - 知乎

最常见的L2 regrelization 是参数的平方，而L1是参数的绝对值

（插播一条概念： overfitting 中文名字叫过拟合）

这里的参数是指原方程式的参数啊，注意！！

“L2 针对于这种变动, 白点的移动不会太大, 而 L1的白点则可能跳到许多不同的地方 , 因为这些地方的总误差都是差不多的. 侧面说明了 L1 解的不稳定性“。从图像可以了解到l1的不稳定性。从方程式的复杂程度也可以理解。如果方程式本身越简单，证明‘碰巧’遇到相同具体的情况会变多。然而越复杂的方程式，这种碰巧发生的程度和概率也会越低。不知道这样理解可不可以？

　anyway，反正就是l2更加精准，而l1 发生碰巧的情况更多，从而产生误差的可能性更多。