lasso线性模型python代码_2020-05-17 第八章 岭回归与Lasso回归模型(python)

本文介绍了岭回归与Lasso回归模型,针对线性回归模型的不可逆问题提出解决方案。岭回归通过添加正则项解决多重共线性,Lasso回归则能进行变量选择。通过Python代码展示了如何使用sklearn库实现模型,包括系数求解的几何意义、交叉验证确定λ值以及实际应用中的糖尿病数据预测。
摘要由CSDN通过智能技术生成

岭回归与Lasso回归模型

01 线性回归模型的短板

背景知识

根据线性回归模型的参数估计公式

math?formula=%CE%B2%3D(X%5E%E2%80%B2X)%5E%E2%88%921X%5E%E2%80%B2y可知,得到β的前提是矩阵

math?formula=X%5E%E2%80%B2X可逆,但在实际应用中,可能会出现自变量个数多于样本量或者自变量间存在多重共线性的情况,即

math?formula=X%5E%E2%80%B2X的行列式为0。此时将无法根据公式计算回归系数的估计值β。

02 岭回归与Lasso回归的系数求解

岭回归模型

为解决多元线性回归模型中可能存在的不可逆问题,统计学家提出了岭回归模型。该模型解决问题的思路就是在线性回归模型的目标函数之上添加

math?formula=l2正则项(也称为惩罚项)。

在线性回归模型的目标函数之上添加

math?formula=%F0%9D%91%992正则项,其中

math?formula=%F0%9D%9C%86为非负数

math?formula=%F0%9D%9C%86%3D0时,目标函数退化为线性回归模型的目标函数

math?formula=%F0%9D%9C%86%E2%86%92%2B%E2%88%9E时,通过缩减回归系数使

math?formula=%F0%9D%9B%BD趋近于0

math?formula=%CE%BB

math?formula=l2正则项平方的系数,用于平衡模型方差(回归系数的方差)和偏差

参数β的求解

具体方程推导就不列出了

模型方差与偏差的理解

c24bda3f84ca

image.png

随着λ的增大,模型方差会减小(因为矩阵(X^′X+λI)的行列式随λ的增加在增加,使得矩阵的逆就会逐渐减小,进而岭回归系数被“压缩”而变小)而偏差会增大。

03 系数求解的几何意义

几何意义

c24bda3f84ca

image.png

以二维空间为例(即自变量仅包含

math?formula=x1

math?formula=x2两个),左半边的半椭圆体代表了

math?formula=%E2%88%91_%7Bi%3D1%7D%5En(y_%7Bi%7D%E2%88%92%CE%B2_%7B0%7D%E2%88%92%E2%88%91_%7Bj%3D1%7D%5E2x_%7Bij%7D%CE%B2_j)%5E2的部分,它是关于两个系数的二次函数;圆柱体代表了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值