tikhonov正则化 matlab_机器学习中的各种范数与正则化

本文探讨了机器学习中的正则化技术,特别是Tikhonov正则化(又称L2正则化)。通过引入矩阵范数来控制模型复杂度,以减少过拟合。讲解了不同范数的性质和它们如何影响模型权重,包括一范数、二范数、Frobenius范数。还提到了其他正则化方法,如数据增强、随机噪声、标签平滑操作、早停法和Dropout,并介绍了它们在防止过拟合和提高泛化能力方面的作用。
摘要由CSDN通过智能技术生成

机器学习中的各种范数与正则化

对于统计机器学习算法一般为缓解过拟合现象的发生需要在进行正则化操作,通过正则化以偏差的增加换取方差的减小,因此优秀的正则化操作即是在保证方差较小的情况下,偏差尽可能的小。有关偏差与方差的介绍可以参考我的这篇笔记

PoderLee:Bias - Variance Dilemma(偏差-方差窘境)​zhuanlan.zhihu.com
f991242efd4afdaf248a581f365ac90f.png

最常见的方法即为在损失函数中引入矩阵范数,以对模型的复杂程度做出惩罚,即模型的权值参数(一般不考虑惩罚偏置,这主要是因为惩罚偏置首先不会有明显效果,其次惩罚偏置可能会造成模型欠拟合),其目标函数一般如下式所示:

equation?tex=min%5Cquad+%5Ctilde+J%28%5Ctheta%3BX%2Cy%29%3D%5Cunderbrace%7BJ%28%5Ctheta%3BX%2Cy%29%7D_%7B%281%29%7D%2B%5Cunderbrace%7B%5Calpha+%5COmega%28%5Ctheta%29%7D_%7B%282%29%7D%5Ctag%7B1%7D

上式中,第一项即为经验风险,第二项即为正则化项。其中

equation?tex=%5Calpha%5Cgeq0 ,为调整两者之间关系的系数。当
equation?tex=%5Calpha%3D0 时,则表示无正则化项,
equation?tex=%5Calpha 越大则表示对应正则化惩罚越大。
  • equation?tex=L%5E2
    范数正则化

equation?tex=+L_2%3A%5Cqquad+%5COmega%28%5Ctheta%29%3D%5Cfrac12%7C%7Cw%7C%7C%5E2_2%5Ctag%7B2%7D

这里我们假设模型的偏置参数均为0,则参数

equation?tex=%5Ctheta 即为
equation?tex=w ,因此其目标函数为:

equation?tex=+%5Ctilde+J%28w%3BX%2Cy%29%3DJ%28w%3BX%2Cy%29%2B%5Cfrac%7B%5Calpha%7D%7B2%7Dw%5ETw%5Ctag%7B3%7D+

对上式求其梯度有:

equation?tex=+%5Cnabla_w%5Ctilde+J%28w%3BX%2Cy%29%3D%5Cnabla_wJ%28w%3BX%2Cy%29%2B%5Calpha+w%5Ctag%7B4%7D+

使用梯度下降法更新权重

equation?tex=w ,则
equation?tex=w 将向负梯度方向收敛,如下:

equation?tex=+w%5C%3B%5Cleftarrow%5C%3Bw-%5Cepsilon%28%5Cnabla_wJ%28w%3BX%2Cy%29%2B%5Calpha+w%29%3D%281-%5Cepsilon%5Calpha%29w-%5Cepsilon%5Cnabla_wJ%28w%3BX%2Cy%29%5Ctag%7B5%7D+

从中可以看出每次权值

equation?tex=w 更新时都将乘以
equation?tex=%281-%5Cepsilon%5Calpha%29 ,该常数因子小于0,即权重将会逐渐收缩,趋近于0。

进一步地,这里令

equation?tex=w%5E%2A%3Darg%5C%2Cmin_wJ%28w%29 (将
equation?tex=J%28w%3BX%2Cy%29 简记为
equation?tex=J%28w%29 ),即
equation?tex=w%5E%2A 为损失函数
equation?tex=J%28w%3BX%2Cy%29 取得最小训练误差的权值。并在
equation?tex=w%5E%2A 的邻域对损失函数
equation?tex=J%28w%29 做二次近似(泰勒展开),记为
equation?tex=%5Chat+J%28w%29 ,如下:

equation?tex=%5Chat+J%28w%29%3DJ%28w%5E%2A%29%2B%5Cfrac12%28w-w%5E%2A%29%5ETH%28w-w%5E%2A%29%5Ctag%7B6%7D

上式中

equation?tex=H
equation?tex=J
equation?tex=w%5E%2A 处计算的Hessian矩阵,且该矩阵为半正定矩阵。由上述知,
equation?tex=w%5E%2A 为损失函数的最优解,因
  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值