机器学习笔记之线性回归

最新推荐文章于 2024-08-12 16:55:46 发布

weekdayh

最新推荐文章于 2024-08-12 16:55:46 发布

阅读量200

点赞数

分类专栏：机器学习笔记文章标签：机器学习线性回归笔记

本文链接：https://blog.csdn.net/weekdayh/article/details/95720858

版权

机器学习笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

机器学习笔记之线性回归

已知数据集Data:

$x_1,y_1)，(x_2,y_2)，(x_3,y_3)，……，(x_{N-2}，y_{N-2})，(x_{N-1}，y_{N-1})，（x_N,y_N)$

其中 $x_ i\in$ $R^p$ , $y_i\in R$ ， $i = 1, 2, 3, \dots \dots ， N$
在这里插入图片描述
$X=(x_1,x_2,……，x_{N-1}，x_N)^T=\begin{bmatrix} x_{11}&x_{12} & \cdots & x_{1p}\\ x_{21}&x_{22} & \cdots & x_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ x_{N1}&x_{N2}, & \cdots & x_{Np} \end{bmatrix}_{N{\times}P}$

Y= $y_1,y_2，……，y_{N-1}，y_N)^T$

给定有 $p$ 个属性描述的输入 $\textbf{x}$ =( $x_{1},x_2,\cdots，x_p$ ),其中 $x_i$ 是 $\textbf{x}$ 在第 $i$ 个属性上的取值，线性模型（linear model)就是通过学习一个属性之间的线性组合来进行预测的函数，即
$f(x)=w_1x_1+w_2x_2+\cdots+w_px_p+b$
一般写成向量形式
$f(x)=w^Tx+b$
其中 $w$ 是 $p$ 维的行向量，即 $w=(w_1,w_2,\cdots,w_p)$ .线性回归的目的是使得
$f(x_i)=w^Tx_i+b\simeq真实值y_i$
如何确定 $w^T和b$ 的值呢？因此，就需要一个衡量预测值 $f(x_i)$ 和真实值 $y_i$ 之间差异的函数。最常用的则是均方误差函数（通常叫做损失函数），即
在这里插入图片描述

图片来自于https://github.com/ws13685555932/machine_learning_derivation/blob/master/3%20%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92.pdf
详见请点击此链接

$(w^*,b^*)=\arg{\mathop{\min}\limits_{（w,b）}}\sum_{i=1}^N(w^Tx_i-y_i)^2$
几何意义：均方误差对应了欧几里得距离（欧氏距离）。求解方法使用最小二乘法（least square method)。在线性回归中，最小二乘法就是试图找到一条直线，使得所有样本到直线上的欧式距离之和最小。为了便于求解，可以将 $b$ 设为 $0$ 。下面是求解过程：

线性回归求解
$\begin{aligned}L(w)&=\sum_{i=1}^N \|w^Tx_i-y_i\|=\sum_{i=1}^N (w^Tx_i-y_i)^2\\&=\begin{pmatrix}w^Tx_1-y_1,w^Tx_2-y_2,\cdots,w^Tx_Ny_N\end{pmatrix}\begin{pmatrix}w^Tx_1-y_1 \\ w^Tx_2-y_2, \\ \vdots\\w^Tx_N-y_N\end{pmatrix}\\&=\Biggl(\begin{pmatrix}w^Tx_1,w^Tx_2,\cdots,w^Tx_N\end{pmatrix}-\begin{pmatrix}y_1,y_2,\cdots,y_N\end{pmatrix}\Biggr)\begin{pmatrix}w^Tx_1-y_1\\w^Tx_2-y_2\\ \vdots\\w^Tx_N-y_N\end{pmatrix}\\&=\underbrace{w^T\Biggl(\begin{pmatrix}x_1,x_2,\cdots,x_N\end{pmatrix}-\begin{pmatrix}y_1,y_2,\cdots,y_N\end{pmatrix}\Biggr)}_{W^TX^T-Y^T} \underbrace{\begin{pmatrix}w^Tx_1-y_1\\w^Tx_2-y_2\\ \vdots\\w^Tx_N-y_N\end{pmatrix}}_{WX-Y} \end{aligned}$
即: $L(W)=(W^TX^T-Y^T)(XW-Y)$

展开可得：
$L(W)=W^TX^TXW-W^TX^TY-Y^TXW+Y^TY$
因为 $W^TX^TY$ 是对称矩阵，所以 $L(W)=W^TX^TXW-2W^TX^TY+Y^TY$

$\hat{w}=\arg{\min}L(W)$

对 $L (w)$ 求关于 $w$ 的偏导得： $\frac{\partial{L(w)}}{\partial{w}}=2X^TXW-2X^TY$

令偏导的等于零，则$X^TXW=XTY\Rightarrow W=(X^TX){-1}X^TY $

其中 $X^TX)^{-1}$ 是矩阵 $X^TX)$ 的逆矩阵。然而，现实任务中 $X^TX$ 往往不是满秩矩阵。例如有时在许多任务中我们会遇到大量的变量，其数目超过样例数，导致 $X$ 的例数多于行数， $X^TX$ 显然不满秩，但此时可以求伪逆。此时可以求出多个，它们都能使均方差最小化。至于选哪一个作为输出，将由学习算法的归纳偏好决定，常见的做法是引入正则化项（regularization)。

从几何角度来解释: $p$ 个属性可以理解为 $p$ 维子空间， $f(\beta)$ 是 $y$ 在 $p$ 维子空间的投影，在 $p$ 维子空间找一向量 $\beta$ 使得 $f(\beta)$ 与 $y$ 的距离最小，则满足 $y - f (w)$ 与 $p$ 维子空间的基向量垂直。即
图片来自于网络

图片来自于https://github.com/ws13685555932/machine_learning_derivation/blob/master/3%20%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92.pdf
详见请点击此链接

$f(w)=w^Tx=x^T\beta$
$\begin{aligned} X^T(Y-f(w))&=0\Rightarrow X^T(Y-X\beta)=0\Rightarrow X^TY=X^TX\beta\Rightarrow\beta=(X^TX)^{-1}X^TY \end{aligned}$

从概率角度来解释：设数据集的噪声 $\varepsilon\sim N(0,\sigma^2)$ , $x_i\in R^p$ , $y_i\in R$
$\begin{aligned} \left.\begin{matrix}y=f(w)+\varepsilon\\ f(w)=w^Tx\end{matrix} \right \}&\Rightarrow y=w^Tx+\varepsilon \Rightarrow y|x;w\sim(w^Tx,\sigma^2)\\&\Rightarrow P(y_i|x_i;w)=\frac{1}{\sqrt{2\pi}\sigma}exp(\frac{(y_i-w^Tx_i)^2}{2 \sigma^2}) \end{aligned}$
使用最大似然估计法（ $maximum\quad likelihood \quad estimation,MLE$ ) 求解，即：
$\begin{aligned} L(w)&=\log P(Y|X;w)=\log \prod_{i=1}^NP(y_i|x_i;w)=\sum_{i=1}^N \log P(y_i|x_i;w)\\ &=\sum_{i=1}^N (\log \frac{1}{\sqrt{2\pi}\sigma}+\log exp(-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}))\\ &=\sum_{i=1}^N(\log \frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{2\sigma^2(y_i-w^Tx_i)^2}) \end{aligned}$
即求 $\hat{w}=\arg \max\limits_{w}L(w)=\arg \max \limits_{w}(\frac{-1}{2\sigma^2}(y_i-w^Tx_i))$

$\Rightarrow \hat{w}=\arg \min \limits_{w}(y_i-w^Tx_i)^2$ $\Longleftrightarrow$ 损失函数 $\sum_{i=1}^N \|w^Tx_i-y_i \|$

因此，最小二乘估计法等价于噪声服从正态分布的极大似然估计。LSE $\Longleftrightarrow$ MLE
正则化：简单来说，当数据集（样本容量）很少时，最小均方差函数未必可以取得很好的效果，会产生所谓的过拟合现象（就是在训练数据上模型表现效果很好，但是测试数据上表现不好）。因此，为了防止这样的现象发生，常用的方法是有增加样本数据、特征选择（特征提取）如PCA、正则化。本次就介绍通过添加正则项来控制过拟合，在损失函数后面加上正则项，即：
$L（w)=\sum_{i=1}^N\|w^T-y_i\|^2+\lambda p(w)$
一般正则项形式如 $\lambda |w_i|^q$ ,当 $q = 1$ 时，被称为lasso,如果 $\lambda$ 足够大时，某些系数 $w_i$ 会变成零，从而会产生一个稀疏（sparse）模型；当 $q = 2$ 时，被称为岭回归（ridge regression），这样的好处是可以求出解析解，在神经网络中，这种方法叫做权值衰减（weight decay)。

因此，损失函数就转化为： $\begin{aligned}J（w）&=\sum_{i=1}^N\|w^Tx_i-y_i\|^2+\lambda \|w\|^2=\sum_{i=1}^N\|w^Tx_i-y_i\|+\lambda w^Tw\\&=(W^TX^T-Y^T)(XW-Y)+\lambda W^TW\\&=W^TX^TXW-2W^TX^TY+Y^TY+\lambda W^TW\\&=W^T(X^TX+\lambda I)W-2W^TX^TY+Y^TY \end{aligned}$
$\hat W=\arg \min \limits_W J(W)$
求导可得： $\frac{\partial J(W)}{\partial W}=2(X^TX+\lambda I)W-2X^TY$
令上式等于零， $\frac{\partial J(W)}{\partial W}=0 \Rightarrow \hat{W}=（X^TX+\lambda I)^{-1}X^TY$
正则化的概率解释：数据落在模型的几率
在这里插入图片描述

图片来自于https://github.com/ws13685555932/machine_learning_derivation/blob/master/3%20%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92.pdf
详见请点击此链接

贝叶斯角度：设 $\sim N(0,\sigma_0^2)$ 即
$P(w)=\frac{1}{\sqrt{2\pi}\sigma_0}exp\{-\frac{(y-w^Tx)}{2\sigma^2}\}$ ， $P(y|w)=\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{y-w^Tx}{2\sigma^2}\}$
$\because P(w|y)=\frac{P(y|w) \cdot P(W)}{P(y)}$
$\therefore$ 最大后验概率( $maximum\quad a \quad posteriori\quad estimation$ )MAP
$\begin{aligned}\hat{w}&=\arg \max \limits_{w}P(w|y)=\arg \max \limits_{w}P(y|w)\cdot P(w)\\&=\arg \max \limits_{w}log[P(y|w)\cdot P(w)]\\&=\arg \max \limits_{w}log(\frac{1}{\sqrt{2\pi}\sigma} \cdot\frac{1}{\sqrt{2\pi}\sigma_0})+log \exp\{-\frac{(y-w^Tx)^2}{2\sigma^2}-\frac{\|w\|^2}{2\sigma^2}\}\\&\Rightarrow\arg \min \limits_w\frac{(y-w^Tx)^2}{2\sigma^2}+\frac{\|w\|^2}{2\sigma_0^2}\Rightarrow\arg \min \limits_w(y-w^Tx)^2+\frac{\sigma_2}{\sigma_0^2}\|w\|^2 \end{aligned}$
上式最终优化等价于 $\hat{w}_{MAP}=\arg \min \limits_{w}\sum_{i=1}^N(y-w^Tx)^2+\frac{\sigma^2}{\sigma^2_0}\|w\|^2$

与Ridge Regression $J(w)=\sum_{i=1}^N(w^Tx_i-y_i)^2+\lambda w^Tw$ 比较可得， $\lambda=\frac{\sigma^2}{\sigma_0^2}$

因此可以得出最小二乘估计LSE $\Longleftrightarrow$ 极大似然估计MLE(噪声为高斯分布）,正则化最小二乘估计Regularized LSE $\Longleftrightarrow$ 最大后验概率估价MAP

weekdayh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记之线性回归

机器学习笔记之线性回归已知数据集Data:(x1,y1)，(x2,y2)，(x3,y3)，……，(xN−2，yN−2)，(xN−1，yN−1)，（xN,yN)(x_1,y_1)，(x_2,y_2)，(x_3,y_3)，……，(x_{N-2}，y_{N-2})，(x_{N-1}，y_{N-1})，（x_N,y_N)(x1,y1)，(x2,y2)，(x3,y3)，……，(xN−2，y...
复制链接

扫一扫

专栏目录