浅谈sPLS和sgPLS

本文深入探讨了sPLS和sgPLS方法,对比了它们与经典penalised loss、PLS及线性回归的关系。在大数据背景下,通过λ校准来调整模型复杂度,防止过拟合。sPLS和sgPLS的差异在于sparsity参数的处理,影响特征选择的数量。通过对不同λ值的分析,展示了如何在实际操作中确定最佳模型参数。
摘要由CSDN通过智能技术生成

偏最小二乘回归(partial least squares regression, 也称PLS)是一个 与主成分分析回归(principal components regression)有关系的统计方法。不是找到自变量和因变量之间的最大方差的超平面,而是找到一个能将预测变量和可观测变量投影到新空间的线性回归模型 (wikipedia, 2020)

先从Penalised Loss说起

Penalised Loss = Original loss + Penalty
Original loss = MSE
Panelty = λ \lambda λ * // β \beta β//
lamda变大–>panelty变大–> penalised loss变大–>Original loss变小–>容易overfit

经典的penalize loss图

在这里插入图片描述
这图的目的是求出使Penalty loss最小的beta
左边的是lasso penalty= / / β 1 / / + / / β 2 / / //\beta_1// + //\beta_2// //β1//+//β2// 所以中间图像为方形
右边的是ridge penalty= / / β 1 / / 2 + / / β 2 / / 2 //\beta_1//^2+ //\beta_2//^2 //β1//2+//β2//2 所以中间图像为圆形
中间实心区域为指定 λ \lambda λ时的penalty,面积越大,penalty越小。
红色圈为MSE,中间的点为MSE最小时 β 1 \beta_1 β1 β 2 \beta_2 β2的值,同一个圈上MSE值相同。
calibration即为调参,指在该 λ \lambda λ下的 o p t ( M S E ) _{opt}(MSE) optMSE
由此,最优penalize loss时 β \beta β的取值即为红色圈与蓝色区域相交的部分。因为这是constrianed penalize,所以不能超过蓝色区域。
此图为二维,用于确定只有两个 β \beta

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值