最小二乘法、加权最小二乘法——直线拟合

最新推荐文章于 2024-01-20 15:51:54 发布

HomerHope

最新推荐文章于 2024-01-20 15:51:54 发布

阅读量9.1k

点赞数 17

分类专栏： LR 文章标签：线性回归最小二乘法加权最小二乘法

LR 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

对多篇最小二乘法相关的资料的整合，如有错误，敬请指正！
原文地址1
原文地址2

线性回归

线性回归假设数据集中特征与结果存在着线性关系：
$y = m x + c$
y为结果，x为特征，m为系数，c为系数
我们需要找到m、c使得m*x+c得到的结果y与真实的y误差最小，这里使用平方差来衡量估计值与真实值得误差（如果只用差值就可能会存在负数)；用于计算真实值与预测值的误差的函数称为：平方损失函数（square loss function）；这里用L表示损失函数，所以有：
$L_n = (y_n-(mx_n+c))^2$
整个数据集上的平均损失为：
$L=\frac{1}{N} \sum_{n=1}^{N}(y_n,f(x_n;c,m))$

我们要求得最匹配的m与c使得L最小；数学表达式可以表示为：
${\arg\limits_m}\ {\min\limits_c}\ \frac{1}{N}\sum_{n=1}^{N}L_n(y_n;c,m)$
最小二乘法用于求目标函数的最优解，它通过最小化误差的平方和寻找匹配项所以又称为：最小平方法；这里将用最小二乘法求得线性回归的最优解；

最小二乘法

数据集有1…N个数据组成，每个数据由{x,y}构成，x表示特征，y为实际结果；这里将线性回归模型定义为：
$f (x; m, c) = m x + c$
平均损失函数为：
$\begin{aligned} L &=\frac{1}{N}\sum_{n=1}^{N}L_n(y_n,f(x_n;c,m))\\ &=\frac{1}{N}\sum_{n=1}^{N}(y_n-f(x_n;c,m))^2\\ &=\frac{1}{N}\sum_{n=1}^{N}(y_n-(c+mx_n))^2\\ &=\frac{1}{N}\sum_{n=1}^{N}(y_n-c-mx_n)(y_n-c-mx_n)\\ &=\frac{1}N\sum_{n=1}^{N}(y_n^2-2y_nc-2y_nmx+c^2+2cmx+m^2x_n^2)\\ &=\frac{1}{N}\sum_{n=1}^{N}(y_n^2-2y_nc+2mx(c-y_n)+c^2+m^2x_n^2)\\ \end{aligned}$

要使L最小，其关于c与m的偏导数为0，所以求偏导数，得出后让导数等于0，并对c与m求解便能得到最小的L，此时的c与m便是最匹配该模型的；

关于c的偏导数:

因为求得是关于c的偏导数，因此把L的等式中不包含c的项去掉，得到：
$\frac{1}{N}\sum_{n=1}^{N}(c^2-2y_nc+2cmx_n)$
整理式子把不包含下标n的往累加和外移得到：
$c^2+2cm\frac{1}{N}(\sum_{n=1}^{N}x_n)-2c\frac{1}{N}(\sum^{N}_{n=1}y_n)$
那么对c求偏导数得：
$\frac{\partial L }{\partial c}=2c+2m\frac{1}{N}(\sum_{n=1}^{N}x_n)-\frac{2}{N}(\sum_{n=1}^{N}y_n)$

关与m的偏导数:

因为求得是关于m的偏导数，因此把L的等式中不包含m的项去掉，得到：
$\frac{1}{N}\sum_{n=1}^{N}(m^2x_n^2-2y_nmx_n+2cmx_n)$
整理式子把不包含下标n的往累加和外移得到：
$m_2\frac{1}{N}\sum_{n=1}^{N}(x_n^2)+2m\frac{1}{N}\sum_{n=1}^{N}x_n(c-y_n)$
那么对m求偏导数得：
$\frac{\partial L }{\partial m}=2m\frac{1}{N}\sum_{n=1}^{N}(x_n^2)+\frac{2}{N}\sum_{n=1}^{N}x_n(c-y_n)$

求解m和c：

令关于c的偏导数等于0，求解：
$2c+2m\frac{1}{N}(\sum_{n=1}^{N}x_n)-\frac{2}{N}(\sum_{n=1}^{N}y_n)=0$

$2c=\frac{2}{N}(\sum_{n=1}^{N}y_n)-2m\frac{1}{N}(\sum_{n=1}^{N}x_n)$

$c=\frac{1}{N}(\sum_{n=1}^{N}y_n)-m\frac{1}{N}(\sum_{n=1}^{N}x_n)$

从上求解得到的值可以看出，上面式子中存在两个平均值：
$\overline{x}=\frac{1}{N}(\sum_{n=1}^{N}x_n),\overline{y}=\frac{1}{N}(\sum_{n=1}^{N}y_n)$
则：
$c=\overline{y}-m\overline{x}$
令关于m的偏导数等于0，求解：
$2m\frac{1}{N}\sum_{n=1}^{N}(x_n^2)+\frac{2}{N}\sum_{n=1}^{N}x_n(c-y_n)=0$
将c和平均值关系带入得：
$m\frac{1}{N}\sum_{n=1}^{N}(x_n^2)+\frac{1}{N}\sum_{n=1}^{N}x_n(\overline{y}-m\overline{x}-y_n)=0$

$m(\frac{1}{N}\sum_{n=1}^{N}(x_n^2)-\frac{1}{N}\overline{x}\sum_{n=1}^{N}x_n)=\frac{1}{N}\sum_{n=1}^{N}(x_ny_n-x_n\overline{y})$

令：
$\overline{x^2} =\frac{1}{N}\sum_{n=1}^{N}(x_n^2), \ \overline{xy}=\frac{1}{N}\sum_{n=1}^{N}(x_ny_n)$
则：
$m=\frac{\overline{xy}-\overline{x}\ \overline{y}}{\overline{x^2}-\overline{x}^2}$
至此，m与c都已计算出

加权最小二乘法：

前面所求解的一般最小二乘法将时间序列中的各项数据的重要性同等看待，而事实上时间序列各项数据对未来的影响作用应是不同的。一般来说，近期数据比起远期数据对未来的影响更大。因此比较合理的方法就是使用加权的方法，对近期数据赋以较大的权数，对远期数据则赋以较小的权数。加权最小二乘法采用指数权数W（0<W<1），加权以后求得的参数估计值应满足：
$L_n = W_n(y_n-(mx_n+c))^2$

$L=\frac{1}{N} \sum_{n=1}^{N}W_n(y_n,f(x_n;c,m))$

${\arg\limits_m} \ {\min \limits_{c}}\ \frac{1}{N}\sum_{n=1}^{N}L_n(y_n;c,m)={\arg\limits_m}\ {\min\limits_c}\ \frac{1}{N}\sum_{n=1}^{N}W_n(y_n-(mx_n+c))^2$

同理，平均损失函数为：
$\begin{aligned} L &=\frac{1}{N}\sum_{n=1}^{N}L_n(y_n,f(x_n;c,m))\\ &=\frac{1}{N}\sum_{n=1}^{N}W_n(y_n-f(x_n;c,m))^2\\ &=\frac{1}{N}\sum_{n=1}^{N}W_n(y_n-(c+mx_n))^2\\ &=\frac{1}{N}\sum_{n=1}^{N}W_n(y_n-c-mx_n)(y_n-c-mx_n)\\ &=\frac{1}N\sum_{n=1}^{N}W_n(y_n^2-2y_nc-2y_nmx+c^2+2cmx+m^2x_n^2)\\ &=\frac{1}{N}\sum_{n=1}^{N}W_n(y_n^2-2y_nc+2mx(c-y_n)+c^2+m^2x_n^2) \end{aligned}$

要使L最小，其关于c与m的偏导数为0，所以求偏导数，得出后让导数等于0，并对c与m求解便能得到最小的L，此时的c与m便是最匹配该模型的；

关于c的偏导数:

因为求得是关于c的偏导数，因此把L的等式中不包含c的项去掉，得到：
$\frac{1}{N}\sum_{n=1}^{N}W_n(c^2-2y_nc+2cmx_n)$
整理式子把不包含下标n的往累加和外移得到：
$c^2\frac{1}{N}\sum_{n=1}^{N}W_n+2cm\frac{1}{N}(\sum_{n=1}^{N}W_nx_n)-2c\frac{1}{N}(\sum^{N}_{n=1}W_ny_n)$
那么对c求偏导数得：
$\frac{\partial L }{\partial c}=2c\frac{1}{N}\sum_{n=1}^{N}W_n+2m\frac{1}{N}(\sum_{n=1}^{N}W_nx_n)-\frac{2}{N}(\sum_{n=1}^{N}W_ny_n)$

关与m的偏导数:

因为求得是关于m的偏导数，因此把L的等式中不包含m的项去掉，得到：
$\frac{1}{N}\sum_{n=1}^{N}W_n(m^2x_n^2-2y_nmx_n+2cmx_n)$
整理式子把不包含下标n的往累加和外移得到：
$m^2\frac{1}{N}\sum_{n=1}^{N}(W_nx_n^2)+2m\frac{1}{N}\sum_{n=1}^{N}W_nx_n(c-y_n)$
那么对m求偏导数得：
$\frac{\partial L }{\partial m}=2m\frac{1}{N}\sum_{n=1}^{N}(W_nx_n^2)+\frac{2}{N}\sum_{n=1}^{N}W_nx_n(c-y_n)$

求解m和c：

令关于c的偏导数等于0，求解：
$2c\frac{1}{N}\sum_{n=1}^{N}W_n+2m\frac{1}{N}(\sum_{n=1}^{N}W_nx_n)-\frac{2}{N}(\sum_{n=1}^{N}W_ny_n)=0$

$2c=\frac{\frac{2}{N}(\sum_{n=1}^{N}W_ny_n)-2m(\frac{1}{N}\sum_{n=1}^{N}W_nx_n)}{\frac{1}{N}\sum_{n=1}^{N}W_n}$

$c=\frac{\frac{1}{N}(\sum_{n=1}^{N}W_ny_n)-m(\frac{1}{N}\sum_{n=1}^{N}W_nx_n)}{\frac{1}{N}\sum_{n=1}^{N}W_n}$

令关于m的偏导数等于0，求解：
$2m\frac{1}{N}\sum_{n=1}^{N}(W_nx_n^2)+\frac{2}{N}\sum_{n=1}^{N}W_nx_n(c-y_n)=0$
将c和平均值关系带入得：
$2m\frac{1}{N}\sum_{n=1}^{N}(W_nx_n^2)+\frac{2}{N}\sum_{n=1}^{N}W_nx_n(\frac{\frac{1}{N}(\sum_{n=1}^{N}W_ny_n)-m\frac{1}{N}(\sum_{n=1}^{N}W_nx_n)}{\frac{1}{N}\sum_{n=1}^{N}W_n}-y_n)=0$

$\frac{(\frac{1}{N}\sum_{n=1}^{N}W_nx_ny_n)*(\frac{1}{N}\sum_{n=1}^{N}W_n)-(\frac{1}{N}\sum_{n=1}^{N}W_nx_n)*(\frac{1}{N}\sum_{n=1}^{N}W_ny_n)}{(\frac{1}{N}\sum_{n=1}^{N}W_nx_n^2)*(\frac{1}{N}\sum_{n=1}^{N}W_n)-(\frac{1}{N}\sum_{n=1}^{N}W_nx_n)*(\frac{1}{N}\sum_{n=1}^{N}W_ny_n)}$

至此，m与c都已计算出

矩阵推导部分

一个n×n的矩阵A的迹是指A的主对角线上各元素的总和，记作tr(A)。即
$tr(A)=\sum_{i=1}^{n}a_{ii}$

定理一：tr(AB)=tr(BA)

证明：
$tr(AB)=\sum_{i=1}^{n}(AB)_{ii}=\sum_{i=1}^{n}\sum_{j=1}^{m}a_{ij}b_{ji}=\sum_{j=1}^{m}\sum_{i=1}^{n}b_{ji}a_{ij}=\sum_{j=1}^{m}(BA)_{jj}=tr(BA)$

定理二：
$t r (A B C) = t r (C A B) = t r (B C A)$
定理三：

$\frac{\partial{tr(AB)}}{\partial A}=\frac{\partial{tr(BA)}}{\partial A}=B^T$

其中A是m×n的矩阵，B是n×m的矩阵
$tr(AB)=tr\left(\begin{matrix}a_{11}&a_{12}&\cdots&a_{1n}\\a_{21}&a_{22}&\cdots&a_{2n}\\\vdots&\vdots&\ddots&\vdots\\a_{m1}&a_{m2}&\cdots&a_{mn}\end{matrix}\right) \left(\begin{matrix}b_{11}&b_{12}&\cdots&b_{1m}\\b_{21}&b_{22}&\cdots&b_{2m}\\\vdots&\vdots&\ddots&\vdots\\b_{n1}&b_{n2}&\cdots&b_{nm}\end{matrix}\right)$
只考虑对角线上的元素，那么有
$tr(AB)=\sum_{i=1}^{n}a_{1i}b_{i1}+\sum_{i=1}^{n}a_{2i}b_{i2}+\ldots+\sum_{i=1}^{n}a_{mi}b_{im}=\sum_{i=1}^{m}\sum_{j=1}^{n}a_{ij}b_{ji}$

$\frac{\partial tr(AB)}{\partial a_{ij}}=b_{ij}\Rightarrow \frac{\partial tr(AB)}{\partial A}=B^T$

定理四：

$\frac{\partial{tr(A^TB)}}{\partial A}=\frac{\partial{tr(BA^T)}}{\partial A}=B$

证明：
$\frac{\partial{tr(A^TB)}}{\partial A}=\frac{\partial{tr((A^TB)^T)}}{\partial A}=\frac{\partial{tr(B^TA)}}{\partial A}=\frac{\partial{tr(AB^T)}}{\partial A}=(B^T)^T=B$

定理五：

$tr(A)=tr(A^T)$

定理六：如果a是实数，那么有tr(a)=a
定理七：

$\frac{\partial tr(ABA^TC)}{\partial A}=CAB+C^TAB^T$

证明：
$\frac{\partial tr(ABA^TC)}{\partial A}=\frac{\partial tr(ABA^TC)}{\partial A}+\frac{\partial tr(A^TCAB)}{\partial A}=(BA^TC)^T+CAB=C^TAB^T+CAB$

最小二乘法矩阵推导：

设:
$x=\left(\begin{matrix}x_0^{(1)}&x_0^{(2)}&\cdots&x_0^{(m)}\\x_1^{(1)}&x_1^{(2)}&\cdots&x_1^{(m)}\\\vdots&\vdots&\ddots&\vdots\\x_n^{(1)}&x_n^{(2)}&\cdots&x_n^{(m)} \end{matrix}\right)\ \ \ \ \ \ \ \ \theta=\left(\begin{matrix}\theta_0\\\theta_1\\\vdots\\\theta_n\end{matrix}\right)\ \ \ \ \ X=x^T\ \ \ \ \ Y=\left(\begin{matrix}y^{(1)}\\y{(2)}\\\vdots\\y_{(m)}\end{matrix}\right)$
其中x的每一列表示一组特征值，共n个，每一行表示有m组数据，θ表示每一个特征值的系数，X表示特征矩阵，Y表示实际的结果值。

则：
$X\theta-Y=\left(\begin{matrix}\sum_{i=0}^{n}x_i^{(1)}\theta_i-y^{(1)}\\\sum_{i=0}^{n}x_i^{(2)}\theta_i-y^{(2)}\\\vdots\\\sum_{i=0}^{n}x_i^{(m)}\theta_i-y^{(m)}\end{matrix}\right)=\left(\begin{matrix}h_\theta(x^{(1)})-y^{(1)}\\h_\theta(x^{(2)})-y^{(2)}\\\vdots\\h_\theta(x^{(m)})-y^{(m)}\end{matrix}\right)$
目标函数：
$J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2=\frac{1}{2}tr[(X\theta-Y)^T(X\theta-Y)]$
使目标函数最小，得到的θ就是最匹配的解，对目标函数求导：
$\begin{aligned} \frac{\partial J(\theta)}{\partial \theta} &= \frac{1}{2}\frac{\partial tr(\theta^TX^TX\theta-\theta^T X^TY-Y^TX\theta+Y^TY)}{\partial \theta}\\&= \frac{1}{2}[\frac{\partial tr(\theta^TX^TX\theta)}{\partial \theta}-\frac{\partial tr(\theta^T X^TY)}{\partial \theta}-\frac{\partial tr(Y^TX\theta)}{\partial \theta}]\\& =\frac{1}{2}[X^TX\theta+X^TX\theta-X^TY-X^TY]\\&=X^TX\theta-X^TY \end{aligned}$
令导数等于0求解：
$X^TX\theta-X^TY=0\\ \theta = (X^TX)^{-1}X^TY$

加权最小二乘法矩阵推导：

加权矩阵：
$W=\left(\begin{matrix}w_1&0&0&\cdots&0\\0&w_2&0&\cdots&0\\0&0&w_3&\cdots&0\\\vdots&\vdots&\vdots&\ddots&\vdots\\0&0&0&\cdots&w_m\end{matrix}\right)$
W为m×m的矩阵，此时目标函数为：
$J(\theta)=\frac{1}{2}\sum_{i=1}^{m}w_i(h_\theta(x^{(i)})-y^{(i)})^2=\frac{1}{2}tr[(X\theta-Y)^TW(X\theta-Y)]$
同理，使目标函数最小，得到的θ就是最匹配的解，对目标函数求导：
$\begin{aligned} \frac{\partial J(\theta)}{\partial \theta} &= \frac{1}{2}\frac{\partial tr(\theta^TX^TWX\theta-\theta^T X^TWY-Y^TWX\theta+Y^TWY)}{\partial \theta}\\&= \frac{1}{2}[\frac{\partial tr(\theta^TX^TWX\theta)}{\partial \theta}-\frac{\partial tr(\theta^T X^TWY)}{\partial \theta}-\frac{\partial tr(Y^TWX\theta)}{\partial \theta}]\\& =\frac{1}{2}[X^TWX\theta+X^TW^TX\theta-X^TWY-X^TW^TY] \end{aligned}$
又因为W是对角阵：
$\begin{aligned} \frac{\partial J(\theta)}{\partial \theta} &=\frac{1}{2}[X^TWX\theta+X^TW^TX\theta-X^TWY-X^TW^TY]\\&=\frac{1}{2}[X^TWX\theta+X^TWX\theta-X^TWY-X^TWY]\\& =X^TWX\theta-X^TWY \end{aligned}$
令导数等于0求解：
$X^TWX\theta-X^TWY=0\\ \theta = (X^TWX)^{-1}X^TWY$