cs231n笔记（4）——正则化

最新推荐文章于 2022-11-09 21:47:51 发布

陈路飞

最新推荐文章于 2022-11-09 21:47:51 发布

阅读量476

点赞数

分类专栏：传统BP神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenlufei_i/article/details/78763337

版权

传统BP神经网络专栏收录该内容

8 篇文章 0 订阅

订阅专栏

结构风险=经验风险+正则项

经验风险=为损失函数的数学变化

通常可以表示成如下式子：
$\theta^* = \arg \min_\theta \frac{1}{N}{}\sum_{i=1}^{N} L(y_i, f(x_i; \theta) + \lambda\ \Phi(\theta)$

其中，前面的均值函数表示的是经验风险函数，L代表的是损失函数，后面的ΦΦ是正则化项（regularizer）或者叫惩罚项（penalty term），它可以是L1，也可以是L2，或者其他的正则函数。整个式子表示的意思是找到使目标函数最小时的θθ值。

5.随机失活

一.

首先，如图一所示，红色为数据样本，当我们用一次函数去拟合数据时，可以看出，函数并不能很好的拟合数据。此时，我们称为欠拟合。

第二幅图，我们在中间加入一个二次项，也就是说对于这幅数据我们用二次函数去拟合。自然，可以拟合出一条曲线，事实也证明这个拟合效果很好。

然后如图三所示，当我们用四次函数去拟合数据时，虽然每个数据都在函数图像上，但是显而易见这并不是我们期望得到的数据趋势，为什么呢？很简单，它的分类只是适合于自己这个测试用例，对需要分类的真实样本而言，实用性可想而知的低。此时，我们称为过拟合。

二. 什么样的情况会出现过拟合：

过多的变量（特征），同时如果我们没有足够的数据集（训练集）去约束这个变量过多的模型，那么就会发生过拟合。

三. 如何防止过拟合：

1. 尽量减少选取变量的数量（图中不同次X的数量）
2. 正则化:正则化中我们将保留所有的特征变量，但是会减小特征变量的数量级,我们要加上惩罚项，从而使参数 θ3 和 θ4 足够的小。

四. 正则化

图中标红为正则项。

常用的正则函数有L1,L2两种，如下：

具体原理，在https://www.zhihu.com/question/20924039里有详细解释。我们要做的只有将损失函数正则化即调整参数惩罚正则项，防止数据过度拟合。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
cs231n笔记（4）——正则化

结构风险=经验风险+正则项经验风险=为损失函数的数学变化通常可以表示成如下式子：其中，前面的均值函数表示的是经验风险函数，L代表的是损失函数，后面的ΦΦ是正则化项（regularizer）或者叫惩罚项（penalty term），它可以是L1，也可以是L2，或者其他的正则函数。整个式子表示的意思是找到使目标函数最小时的θθ值。5.随机失活一....
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。