机器学习之最小二乘法，各种损失函数

最新推荐文章于 2023-09-20 19:15:29 发布

才大难为用

最新推荐文章于 2023-09-20 19:15:29 发布

阅读量6.9k

点赞数 6

分类专栏：机器学习文章标签： 1024程序员节

本文链接：https://blog.csdn.net/HeroIsUseless/article/details/108660524

版权

机器学习专栏收录该内容

33 篇文章 61 订阅

订阅专栏

最小二乘法就是机器学习的开始，设这个最简单的式子是：
$y = w x + b$

平方损失函数为：
$L=\frac{1}{2}\sum_{i=1}^n(t_i-y_i)^2$

之所以有 $\frac{1}{2}$ 是因为在接下来化简过程中会非常漂亮(仅限于高数，矩阵不算)，其中 $t_i$ 是已测数据的结果集，现成的。那么如何降低损失函数呢？就是求导让其对 $w$ 求导等于0，那就是整个损失函数的最低点(损失函数是下凸函数)：
$=\frac{1}{2} \sum_{i=1}^n(t_i-y_i)^2\\ =\frac{1}{2} \sum_{i=1}^n(t_i-(wx_i+b))^2\\ =\frac{1}{2} \sum_{i=1}^n(t_i^2+w^2x_i^2+b^2-2t_iwx_i-2t_ib+2wx_ib)$

$\frac{\vartheta L}{\vartheta w}=\sum_{i=1}^n(wx_i^2-t_ix_i+x_ib)$

$\frac{\vartheta L}{\vartheta b}=\sum_{i=1}^n(b-t_i+wx_i)$
接下来让偏导等于0，求出 $w, b$ ：
$\sum_{i=1}^n(wx_i^2-t_ix_i+x_ib)=0\\ w\sum^n_{i=1}x_i=\sum_{i=1}^n(t_i-b)\\ w=\frac{\sum_{i=1}^n(t_i-b)}{\sum^n_{i=1}x_i}$

$\sum_{i=1}^n(b-t_i+wx_i)=0\\ nb=\sum^n_{i=1}(t_i-wx_i)\\ b=\frac{\sum^n_{i=1}(t_i-wx_i)}{n}$

就这样算出来了。注意 $w$ 中有 $b$ ， $b$ 中有 $w$ 。用均值取代掉 $\sum$ ：
$w=\frac{\overline{t}-b}{\overline{x}}$

$b=\overline{t}-w\overline{x}$

相互带入，完全一样的：
$w_0\overline{x}+b_0=\overline{t}$

意料之外，情理之中，表示数据集均值在这条直线上，接下来用这个式子带入上面的偏导式，消 $b_0$ (b最小值的时候)，这样就会出现 $w_0$ 了。
$\frac{\vartheta L}{\vartheta w}=\sum_{i=1}^n(wx_i^2-t_ix_i+x_ib_0)\\ =\sum_{i=1}^n(wx_i^2-t_ix_i+x_i(\overline{t}-w_0\overline{x}))\\ =w\sum^n_{i=1}x_i^2-\sum^n_{i=1}t_ix_i+(\overline{t}-w_0\overline{x})\sum_{i=1}^nx_i\\ =w_0n\overline{x^2}-n\overline{tx}+(\overline{t}-w_0\overline{x})n\overline{x}=0\\ w_0=\frac{\overline{tx}-\overline{t}\overline{x}}{\overline{x^2}-\overline{x}^2}$

更一般的，大家都这么写：
$w=\frac{\frac{1}{n}\sum_{i=1}^nx_it_i-\overline{t}\overline{x}}{\frac{1}{n}\sum^n_{i=1}x^2_i-\overline{x}\overline{x}}$

$b$ 直接用 $w$ 推出，自此最小二乘法推导完毕。

接下来用线代推，用线代推不仅更简洁，更重要的一点是，它支持多 $w$ ，也就是多元超平面，这个是高数方法永远也解决不了的了(它会得出n个等式)。
$f=\textbf{w}_{n*1}\textbf{x}_{n*1}+\textbf{b}_{n*1}$

设一共n组数据，每组数据有k个参数。
这里进行了一个整理，把 $b$ 添加进 $w$ 里了，具体见下：
$\textbf{w} = \begin{pmatrix} b \\ w \end{pmatrix} , \textbf{x} = \begin{pmatrix} 1 \\ x \end{pmatrix}$

这样 $\textbf{w}^T\textbf{x}=b+wx$ ，按照这个角度来说，b用 $w_0$ 来表示比较合适了，接下来的参数为 $w_1,w_2...$ ，而变量也是从1 $x_1,x_2...$ 特别完美，实际上的矩阵就是n+1的，参数矩阵第一个是 $w_0$ ，变量矩阵第一个是 $1$ ，直接 $\textbf{wx}$ 得出解，下面都是多变量多参数的了。
损失函数为
$L=\sum^n_{i=1}(t_i-\textbf{w}^T\textbf{x}_i)^2$

取代 $\sum$ ，变成如下的：
$L=(\textbf{t}-\textbf{X}\textbf{w})^T(\textbf{t}-\textbf{X}\textbf{w})$

$L=\textbf{w}^T\textbf{X}^T\textbf{Xw}-2\textbf{w}^T\textbf{X}^T\textbf{t}+\textbf{t}^T\textbf{t}$

注意此时的 $\textbf X$ 是 $n * k$ 的矩阵，包含所有的数据了(但 $\textbf x$ 是 $k * 1$ 矩阵)，这里 $\textbf w$ 是 $k * 1$ 矩阵，只有这样 $\textbf{Xw}$ 才是 $n * 1$ 的矩阵，是所有的解，转置相乘恰好就是平方差的形式。
接下来自然是求导了:
$\frac{\vartheta L}{\vartheta \textbf{w}}= \begin{pmatrix} \frac{\vartheta L}{\vartheta w_0} \\ \frac{\vartheta L}{\vartheta w_1} \\ \vdots \\ \frac{\vartheta L}{\vartheta w_k} \end{pmatrix}$

$\frac{\vartheta L}{\vartheta \textbf{w}}=2\textbf{X}^T\textbf{X}\textbf{w}-2\textbf{X}^T\textbf{t}=0$

这里的矩阵求导是固定式子(这里是对 $w$ 求导)， $w^Tx)'=x,(x^Tw)'=x,(w^Tw)'=2w,(w^TCw)'=2Cw$ (跟普通函数求导差不多)。
$\textbf{X}^T\textbf{X}\textbf{w}=\textbf{X}^T\textbf{t}$

$\textbf{w}=(\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\textbf{t}$

这就是 $\textbf w$ 的最小值，注意是所有的(包括 $w, b$ )，矩阵最小二乘法完毕。

这样求得的式子是线性的，有时候平方式子可能更拟合(这是很有可能的)，即 $f=w_0+w_1x+w_2x^2$ ，这样参数就会是超过两个。但是，越高阶，其实就没有多少作用了，它会在有数据的地方过拟合，没数据的地方偏十万八千里。
如何验证模型的最优复杂度？就是用验证集测，得出最好的。

当数据集特别小，以至于分出一个验证集太奢侈，那么就将数据集分成k份，每次取一份作为验证集，其他作为测试集，一圈下来取平均值(交叉验证)。当k=n时，也就是验证集就一个数据，这叫留一交叉验证LOOCV。

那么什么是模型复杂度？就是 $w$ 尽可能的小和少：
$\sum^k_{i=0}w_i^2$

那么损失函数就变成了：
$L'=L+\lambda \textbf w^T\textbf w$

$L(\textbf w)=(\textbf t-\textbf X\textbf w)^T(\textbf t-\textbf X\textbf w)+\lambda \textbf w^T\textbf w$

$\frac{\vartheta L}{\vartheta \textbf{w}}=2\textbf{X}^T\textbf{X}\textbf{w}-2\textbf{X}^T\textbf{t}+2\lambda\textbf w=0$

$\textbf w=(\textbf{X}^T\textbf{X}+\lambda\textbf{E})^{-1}\textbf{X}^T\textbf{t}$
$\lambda$ 值太小，函数就可能太过复杂(后面项就没多大用了)，值太大，又不利于逼近数据(太简化了)。这就叫正则化误差，正则化最小二乘法。也叫结构误差，这个以后讲。如何确定 $\lambda$ (超参数)选什么好呢？交叉验证。

岭回归：以损失部分信息(说明加入正则化项确实有深刻的缺点)、降低精度(加入正则化项)为代价获得回归系数更为符合实际、更可靠的回归方法，对病态数据的拟合要强于最小二乘法。实际上也是新瓶装旧酒，都一样的。

为了保证回归系数 $\textbf w$ 可求，岭回归模型在目标函数上加了一个L2范数的惩罚项
$J(\textbf w)=\sum(y-\textbf X\textbf w)^2+\lambda||\textbf w||^2_2\\ =\sum(y-\textbf X\textbf w)^2+\sum\lambda \textbf w^2$