深度学习基础—正则化

最新推荐文章于 2024-08-18 23:41:57 发布

sniper_fandc

最新推荐文章于 2024-08-18 23:41:57 发布

阅读量192

点赞数 7

分类专栏：深度学习文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sniper_fandc/article/details/141176121

版权

深度学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

正则化：解决模型过拟合的手段，本质就是减小模型参数取值，从而使模型更简单。常用范数如下：

使用最多的是L2范数正则项，因此加入正则项的损失函数变为：

使用梯度下降法的权重调整公式：

推导后得到：

其中 $\lambda$ 是超参数（在Python中，已经存在lambda的关键字，因此为该参数命名时应注意避免和关键字重复），它的值越大，则参数w就越小，于是模型就越简单，从而不容易过拟合。下图是tanh的函数图像，以该函数作为激活函数，可以发现：

以二分类为例，越简单的模型越接近直线（存在欠拟合），越复杂的模型越接近曲线（存在过拟合），给损失函数加入正则项，在反向传播的过程中，梯度下降法使参数w更小，那 $z=w^{T}*x+b$ 就更小，于是 $\widehat{y}=tanh(z)$ 就越接近0，也就是红色部分，在tanh图像中，趋于0的部分图像趋于线性（红色部分），从而使模型更加趋于线性，从而减少过拟合

L1范数的正则项与L2范数的正则项的区别是：L1范数的正则项可以使权重矩阵变成稀疏矩阵（存在大量的0），也就是减少网络中某些不起作用的神经元，因此也可以使网络更加简单。

L2正则化的缺点：需要多次训练模型，尝试不同的λ的值，选择效果最优的λ，需要花费大量的时间成本。

关注

7
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
深度学习基础—正则化

是超参数（在Python中，已经存在lambda的关键字，因此为该参数命名时应注意避免和关键字重复），它的值越大，则参数w就越小，于是模型就越简单，从而不容易过拟合。L1范数的正则项与L2范数的正则项的区别是：L1范数的正则项可以使权重矩阵变成稀疏矩阵（存在大量的0），也就是减少网络中某些不起作用的神经元，因此也可以使网络更加简单。以二分类为例，越简单的模型越接近直线（存在欠拟合），越复杂的模型越接近曲线（存在过拟合），给损失函数加入正则项，在反向传播的过程中，梯度下降法使参数w更小，那。
复制链接

扫一扫

专栏目录

sniper_fandc CSDN认证博客专家 CSDN认证企业博客

码龄3年

35: 原创

38万+: 周排名

6万+: 总排名

1万+: 访问

: 等级

436: 积分

46: 粉丝

83: 获赞

20: 评论

53: 收藏

私信

关注

热门文章

分类专栏

深度学习 9篇
C语言 12篇
Java 13篇
数据结构 7篇

最新评论

深度学习基础—归一化特征值
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
深度学习基础—归一化特征值
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
数据结构之队列知识与习题练习
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。
数据结构之栈的基本知识与习题
CSDN-Ada助手: 数据频繁变化的情况下，如何高效检索？
链表必刷题之二
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性；(3)增加除了各种控件外，文章正文的字数。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。