cs231n笔记(4)——正则化

结构风险=经验风险+正则项

经验风险=为损失函数的数学变化

通常可以表示成如下式子:
$$\theta^* = \arg \min_\theta \frac{1}{N}{}\sum_{i=1}^{N} L(y_i, f(x_i; \theta) + \lambda\  \Phi(\theta)$$

其中,前面的均值函数表示的是经验风险函数,L代表的是损失函数,后面的ΦΦ是正则化项(regularizer)或者叫惩罚项(penalty term),它可以是L1,也可以是L2,或者其他的正则函数。整个式子表示的意思是找到使目标函数最小时的θθ值。

5.随机失活

 

 

 

 

一.

首先,如图一所示,红色为数据样本,当我们用一次函数去拟合数据时,可以看出,函数并不能很好的拟合数据。此时,我们称为欠拟合

第二幅图,我们在中间加入一个二次项,也就是说对于这幅数据我们用二次函数去拟合。自然,可以拟合出一条曲线,事实也证明这个拟合效果很好。

然后如图三所示,当我们用四次函数去拟合数据时,虽然每个数据都在函数图像上,但是显而易见这并不是我们期望得到的数据趋势,为什么呢?很简单,它的分类只是适合于自己这个测试用例,对需要分类的真实样本而言,实用性可想而知的低。此时,我们称为过拟合

 

二. 什么样的情况会出现过拟合:

过多的变量(特征),同时如果我们没有足够的数据集(训练集)去约束这个变量过多的模型,那么就会发生过拟合。


三. 如何防止过拟合:

1. 尽量减少选取变量的数量(图中不同次X的数量)
2. 正则化:正则化中我们将保留所有的特征变量,但是会减小特征变量的数量级,我们要加上惩罚项,从而使参数 θ3 和 θ4 足够的小。

 

四. 正则化

图中标红为正则项。

常用的正则函数有L1,L2两种,如下:

具体原理,在https://www.zhihu.com/question/20924039里有详细解释。我们要做的只有将损失函数正则化即调整参数惩罚正则项,防止数据过度拟合。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值