回归问题：采用SSE作目标函数去拟合一元一次、二元一次、n 元一次、n 元 n 次函数来构造损失函数，并可做梯度下降得到局部最优解（即普通最小二乘法 OLS）

置顶山高月小水落石出

已于 2022-12-05 09:35:49 修改

阅读量4.9k

点赞数 10

分类专栏：机器学习数学基础回归分析文章标签：机器学习回归模型多元多次函数最小二乘法理论分析

于 2018-10-14 14:16:33 首次发布

本文链接：https://blog.csdn.net/qq_22828175/article/details/83046802

版权

数学基础同时被 3 个专栏收录

22 篇文章 1 订阅

订阅专栏

机器学习

12 篇文章 0 订阅

订阅专栏

回归分析

6 篇文章 1 订阅

订阅专栏

当模型为一元一次函数，即Loss目标函数为二元二次函数时
当模型为二元一次函数，即Loss目标函数为三元二次函数
当模型为 n 元一次函数，即Loss目标函数为 (n+1) 元二次函数时
当模型为 n 元 n 次函数，即Loss目标函数为 (n+1) 元 2n 次函数时
解决多元多次模型过拟合的一些常用方法
总结
- 补充说明

当模型为一元一次函数，即Loss目标函数为二元二次函数时

第一张图是当模型为一元一次函数时的情况，以及其loss函数（二元二次函数）的图像是如何由函数的子项形成的，以及二元二次函数梯度的不同对学习率的影响。一般来说采用全量梯度下降时函数图像最陡，批量梯度下降次之，随机梯度下降或者说逐样本梯度下降最缓。

第一张图是当模型为一元一次函数时的情况

当二次型的系数矩阵为正定时

下图为二次型的系数矩阵正定的情况，下图的碗很陡，即梯度的绝对值很大。

在这里插入图片描述

当二次型的系数矩阵为负定时

下图为二次型的系数矩阵负定的情况，下图的碗没这么陡峭了，即梯度的绝对值小很多了。

在这里插入图片描述

当二次型的系数矩阵为不定时

下图为二次型的系数矩阵不定的情况，此时为马鞍型。

在这里插入图片描述

逐样本梯度下降的实现

第二张图是采用逐样本梯度下降的情况。

第二张图是采用逐样本梯度下降的情况

当模型为二元一次函数，即Loss目标函数为三元二次函数

第三张图是模型为二元一次函数时的情况，这时其loss函数为三元二次函数。

在这里插入图片描述

当模型为 n 元一次函数，即Loss目标函数为 (n+1) 元二次函数时

第四张图是模型为n元一次函数时的情况，这时其loss函数为（n+1）元二次函数。

在这里插入图片描述

当模型为 n 元 n 次函数，即Loss目标函数为 (n+1) 元 2n 次函数时

第五张图是模型为n元n次函数时的情况，这时其loss函数为（n+1）元2n次函数。

在这里插入图片描述

解决多元多次模型过拟合的一些常用方法

在相同样本元素个数的情况下，模型的自变量越多，次数越高，就越容易过拟合。第六张图为解决多元多次模型过拟合的一些常用方法。

在这里插入图片描述

总结

本文给出了采用最小二乘法拟合多元多次函数来构造损失函数的过程，可用于解决数值预测问题。关键在对样本的不同特征给定适当次数，一般可选一次至三次的组合（包括非整数次或负数次方），次数过小则模型欠拟合，次数过大则模型过拟合。对于重要的特征，如果自变量的绝对值（不处理或处理后）基本都是大于1的，则可选稍高的次数，这样自变量的变动对因变量的影响就越大，符合重要特征的特点；如果自变量的绝对值（不处理或处理后）基本都是小于1的，则可选负数次方，这样自变量的变动对因变量的影响也大，也符合重要特征的特点。

补充说明

当需要防止目标函数过拟合，或者不想让某些自变量对函数的影响过大时，可加入L1或L2正则化项，如上图（图6）所示。

当自变量个数较多，无法分清哪些是有作用哪些是没作用或几乎没作用时，可先对带较大λ的L1正则项的目标函数做梯度下降，看求解得到的哪些自变量相比于其他自变量非常趋近于0，则可删除那些自变量，相当于做一次降维；再训练带L2正则的目标函数，来防止过拟合。即当自变量过多或作用不清楚时，可先用L1正则降维，再用L2正则防止过拟合。
此过程若以线性回归为例，相当于先用Lasso Regression筛选自变量，再用Ridge Regression防止过拟合。只是要注意Lasso可能只留下单一或少量作用最大的自变量。
也可以在目标函数中同时加入L1和L2正则项，相当于做Elastic-Net Regression，L1和L2正则项前带不同的λ即可，λ用cross validation优选。

下图是L1正则和L2正则的区别，可以看到L1在自变量为0处是存在尖点的，随着λ的增大，最优自变量取值最终等于0；L2是光滑的，无论λ怎么增大，最优自变量无限趋近于0但不会等于0。所以L1可以做自变量筛选，L2会缩小每个自变量的最优取值。
在这里插入图片描述