线性回归

最新推荐文章于 2023-05-23 16:11:33 发布

prupcognition

最新推荐文章于 2023-05-23 16:11:33 发布

阅读量43

点赞数

分类专栏：机器学习算法基础数学

本文链接：https://blog.csdn.net/m0_37896765/article/details/90640404

版权

机器学习算法同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

基础数学

10 篇文章 1 订阅

订阅专栏

数据集：
$D=\{(x_1,y_1),(x_2,y_2),...(x_N,y_N)\}$
样本：
$x_i \in R^p \quad y_i \in R$
样本的矩阵表示：
$X=(x_1,x_2,...,x_N)^T \quad Y=(y_1,y_2,...,y_N)^T$
拟合函数：
$f(w)=W^TX$

最小二乘角度：
损失函数:
$=\displaystyle\sum_{i=1}^N(f(w)-y_i)^2$
$=\displaystyle\sum_{i=1}^N(w^Tx_i-y_i)^2$
$=(w^Tx_1-y_1 \quad w^Tx_2-y_2 \quad... \quad w^Tx_N-y_N) \left( \begin{array}{ccc} w^Tx_1-y_1 \\ w^Tx_2-y_2 \\ ..............\\ w^Tx_N-y_N \end{array} \right)$
$=\{(w^Tx_1 \quad w^Tx_2 \quad... \quad w^Tx_N)-(y_1,y_2,...,y_N)\} \left( \begin{array}{ccc} w^Tx_1-y_1 \\ w^Tx_2-y_2 \\ ..............\\ w^Tx_N-y_N \end{array} \right)$

$=\{w^T(x_1 \quad x_2 \quad... \quad x_N)-(y_1,y_2,...,y_N)\} \left( \begin{array}{ccc} w^Tx_1-y_1 \\ w^Tx_2-y_2 \\ ..............\\ w^Tx_N-y_N \end{array} \right)$

$w^TX^T-Y^T)(wX-Y)$
展开函数：
$w^TX^TwX-Y^TwX-Yw^TX^T+Y^TY$
$Y^TwX和Yw^TX^T$ 计算结果都是标量，可以进行合并
$w^TX^TwX-2Yw^TX^T+Y^TY$
对w求偏导，并令导数为0有
$\frac{\partial L(w)}{\partial w}=2X^TXW-2X^TY=0$
$X^TXW=X^TY$
所以解析解为：
$W=(X^TX)^{-1}X^TY$

几何角度：
可以把 $X=\{x_1,x_2,...,x_n\}$ 构成的矩阵看作一个子空间，那么显然， $Y 构成的向量不在该列空间中$
那么也就是在X的列空间找到一个向量 $v$ ，使得 $Y 到 X 的距离最短$
根据投影知道： $Y 到子空间 X 的投影距离是最短的$

令：
$X W 是向量 Y 在 X 上面的投影，则有：$
$X W - Y$ 是X的正交补，从而有：
$X^T(XW-Y)=0$
也就是
$X^TXW=X^TY$
$W=(X^TX)^{-1}X^TY$
可见和最小二乘计算结果一致
概率角度：
令
$f(x)=w^Tx$
$\varepsilon$
$\varepsilon \sim N(0,\sigma^2)$
有：
$w^Tx+ \varepsilon$
所以 $y也服从正态分布，均值和方差分别是w^Tx，\sigma^2$
可以记作
$\sim N(w^Tx,\sigma^2)$
对应的概率密度函数为
$=\frac {1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^i-w^Tx)^2}{2\sigma^2})$
对其应用对数似然函数有
$\log P(Y|X,W)=\log \prod_{i=1}^n p(y|x,w)=\sum_{1}^n \log p(y|x,w)$
展开
$=\sum_{1}^n \log \frac {1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^i-w^Tx)^2}{2\sigma^2})$
$=\sum_{1}^n (\log \frac {1}{\sqrt{2\pi}\sigma}-\frac{(y^i-w^Tx)^2}{2\sigma^2})$
想要
$a r g m a x (L (W)$
也就是
$argmax(\sum_{1}^n (-\frac{(y^i-w^Tx)^2}{2\sigma^2}))$
也就是
$argmin(\sum_{1}^n (y^i-w^Tx)^2)$
可以看到和最小二乘公式是一样的
带正则项的损失函数：
当样本数量较少时，容易出现过拟合问题
解决过拟合的几种办法
$\begin{cases} 增加数据 \\ 选取特征、或者降维（PCA） \\ 正则化 \end{cases}$
这里介绍两种基于线性回归的正则化方法
$\begin{cases} lasso回归(1范数) \\ ridge回归（领回归，2范数） \\ \end{cases}$

带正则化的损失函数形式：
$=\displaystyle\sum_{i=1}^N(f(w)-y_i)^2+\lambda p(w)$
$\lambda p(w) 称作惩罚项$
这里以领回归为例：
$=w^TX^TXw-2Yw^TX^T+Y^TY+\lambda w^Tw$
$=w^T(X^TX+\lambda I)w-2Yw^TX^T+Y^TY$
对w求偏导有：
$\frac{\partial L(w)}{\partial w}=2(X^TX+\lambda I)w-2X^TY=0$
$(X^TX+\lambda I)w=X^TY$
所以解析解为：
$W=(X^TX+\lambda I))^{-1}X^TY$

贝叶斯角度：
假定：
$f(x)=w^tx$
$y=w^tx+ \varepsilon$
$\varepsilon \sim N(0,\sigma^2)$
$\sim N(0,\sigma^2)$
所以有：
$\sim N(w^tx,\sigma^2)$
$=\frac {1}{\sqrt{2\pi}\sigma}exp(-\frac{(y_i-w^Tx_i)^2}{2\sigma^2})$
$=\frac {1}{\sqrt{2\pi}\sigma}exp(-\frac{w^2}{2\sigma^2})$
后验概率等于：
$p(w|y)=\displaystyle \frac{p(y|w)p(w)}{p(y)}$
最大化后验概率
$\quad p(w|y)$
$\quad p(y|w)p(w)$
$\quad \displaystyle \prod_{i=1}^n\frac {1}{\sqrt{2\pi}\sigma}exp(-\frac{(y_i-w^Tx_i)^2}{2\sigma^2})\frac {1}{\sqrt{2\pi}\sigma}exp(-\frac{w^2}{2\sigma^2})$
$\quad \displaystyle \prod_{i=1}^n\frac {1}{2\pi\sigma^2}exp(-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}-\frac{w^2}{2\sigma^2})$
$\quad \displaystyle \sum_{i=1}^n\{ \log \frac {1}{2\pi\sigma^2}-(\frac{(y_i-w^Tx_i)^2}{2\sigma^2}+\frac{w^2}{2\sigma^2})\}$
$\quad \displaystyle \sum_{i=1}^n(\frac{(y_i-w^Tx_i)^2}{2\sigma^2}+\frac{w^2}{2\sigma^2})$
$\quad \displaystyle \sum_{i=1}^n(\frac{(y_i-w^Tx_i)^2}{2\sigma^2}+\frac{1}{2\sigma^2}w^2)$

可见和领回归公式是类似的

prupcognition

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
线性回归

一般使用最小二乘法处理线性回归问题线性函数f(x)=x1θ1+x2θ2+...+xnθn+bf(x) =x_1\theta_1+x_2\theta_2+...+x_n\theta_n+bf(x)=x1θ1+x2θ2+...+xnθn+b令：L(θ)=∑i=1(f(xi)−yi)2L(\theta) =\sum_{i=1}(f(x^i)-y^i)^2L(θ)=∑i=1(f(x...
复制链接

扫一扫