浅谈sPLS和sgPLS

最新推荐文章于 2021-10-29 10:30:00 发布

meruru

最新推荐文章于 2021-10-29 10:30:00 发布

阅读量1.8k

点赞数

文章标签：大数据机器学习

本文链接：https://blog.csdn.net/meruru/article/details/107889146

版权

本文深入探讨了sPLS和sgPLS方法，对比了它们与经典penalised loss、PLS及线性回归的关系。在大数据背景下，通过λ校准来调整模型复杂度，防止过拟合。sPLS和sgPLS的差异在于sparsity参数的处理，影响特征选择的数量。通过对不同λ值的分析，展示了如何在实际操作中确定最佳模型参数。

摘要由CSDN通过智能技术生成

偏最小二乘回归(partial least squares regression，也称PLS）是一个与主成分分析回归（principal components regression）有关系的统计方法。不是找到自变量和因变量之间的最大方差的超平面，而是找到一个能将预测变量和可观测变量投影到新空间的线性回归模型 (wikipedia, 2020)

先从Penalised Loss说起

Penalised Loss = Original loss + Penalty
Original loss = MSE
Panelty = $\lambda$ * // $\beta$ //
lamda变大–>panelty变大–> penalised loss变大–>Original loss变小–>容易overfit

经典的penalize loss图

在这里插入图片描述
这图的目的是求出使Penalty loss最小的beta
左边的是lasso penalty= $//\beta_1// + //\beta_2//$ 所以中间图像为方形
右边的是ridge penalty= $//\beta_1//^2+ //\beta_2//^2$ 所以中间图像为圆形
中间实心区域为指定 $\lambda$ 时的penalty，面积越大，penalty越小。
红色圈为MSE，中间的点为MSE最小时 $\beta_1$ ， $\beta_2$ 的值，同一个圈上MSE值相同。
calibration即为调参，指在该 $\lambda$ 下的 $_{opt}（MSE）$ 。
由此，最优penalize loss时 $\beta$ 的取值即为红色圈与蓝色区域相交的部分。因为这是constrianed penalize，所以不能超过蓝色区域。
此图为二维，用于确定只有两个 $\beta$