线性回归公式推导

最新推荐文章于 2024-02-18 23:02:05 发布

sss931549667

最新推荐文章于 2024-02-18 23:02:05 发布

阅读量400

点赞数

分类专栏：算法回顾

本文链接：https://blog.csdn.net/sss931549667/article/details/89001763

版权

算法回顾专栏收录该内容

2 篇文章 0 订阅

订阅专栏

推导损失函数

根据初始化式子：
$h_{\theta }\left ( x \right )= \theta _{0}x_{0}+\theta _{1}x_{1}+\theta _{2}x_{2}+...$
简化后可以得到：
$h_{\theta}\left(x\right)=\sum_{i=0}^{n}\theta_{i}x_{i}=\begin{pmatrix}\theta_{0}\\\theta_{1}\\\vdots\\\theta_{n}\\\end{pmatrix}*\begin{pmatrix}x_{0}&x_{1}&\cdots&x_{n}\end{pmatrix}=\Theta^{T}x$
又知存在独立同分布的误差项： $\varepsilon ^{(i)}$
得出下列式子: $^{(i)}=\Theta^{T}x ^{(i)}+ \varepsilon ^{(i)}$
误差项符合数学期望为0、方差为 $\sigma^{2}$ 正太分布（忘记的可以回头稍微了解一下高斯分布的公式）:
$P\left(\varepsilon_{i}\right)=\frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{\left(\varepsilon_{i}\right)^{2}}{2\sigma^{2}}\right)$
将 $\varepsilon ^{(i)}$ 带入上边式子：
$P\left(y^{i}|x^{i};\theta\right)=\frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{\left(y^{i}-\Theta^{T}x^{i}\right)^{2}}{2\sigma^{2}}\right)$
在这里引入似然函数的概念:
$L\left ( \theta \right )=\prod_{i=1}^{m}p\left ( y^{i}|x^{i};\theta \right )$
需要求出似然函数的最大值，开始化简似然函数，两边同时取对数，化简函数：
$l\left(\theta\right)=lnL\left(\theta\right)=ln\prod_{i=1}^{m}p\left(y^{i}|x^{i};\theta\right)=ln\prod_{i=1}^{m}\left(\frac{1}{\sqrt{2\pi\sigma}}exp\left(-\frac{\left(y^{i}-\Theta^{T}x^{i}\right)^{2}}{2\sigma^{2}}\right)\right)$
$=\sum_{i=1}^{m}ln\left(\frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{\left(y^{i}-\Theta^{T}x^{i}\right)^{2}}{2\sigma^{2}}\right)\right)$
$=\sum_{i=1}^{m}\left(ln\frac{1}{\sqrt{2\pi}\sigma}+lnexp\left(-\frac{\left(y^{i}-\Theta^{T}x^{i}\right)^{2}}{2\sigma^{2}}\right)\right)$
$=mln\frac{1}{\sqrt{2\pi}\sigma}+\left(-\sum_{i=1}^{m}\left(\frac{\left(y^{i}-\Theta^{T}x^{i}\right)^{2}}{2\sigma^{2}}\right)\right)$
$=mln\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{\sigma^{2}}\cdot\frac{1}{2}\sum_{i=1}^{m}\left(y^{i}-\Theta^{T}x^{i}\right)^{2}$
这是以上化简用到的简单对数公式
这里需要求出似然函数的最大值，引入损失函数 $J\left ( \theta \right )$ ，当损失函数最小时候，似然函数取最大值：
$J\left ( \theta \right )=\frac{1}{2}\sum_{i=1}^{m}\left(y^{i}-\Theta^{T}x^{i}\right)^{2}$

求解损失函数最优解

矩阵法求解
第一步展开函数，第二步求偏导
1. $J\left ( \theta \right )= \frac{1}{2}\left ( X\Theta -Y \right )^{T}\cdot \left ( X\Theta -Y \right )$
$=\frac{1}{2}\left ( \Theta ^{T}X^{T}-Y^{T} \right )\cdot \left ( X\Theta -Y \right )$
$=\frac{1}{2}\left ( \Theta ^{T}X^{T} X\Theta - \Theta ^{T}X^{T}Y - Y^{T}X\Theta+Y^{T}Y \right )$
2. $\frac{\partial J\left ( \theta \right )}{\partial \theta }=\frac{1}{2}\left( 2X^{T} X \Theta - X^{T} Y-\left ( Y^{T}X \right )^{T}+0\right )=\left ( X^{T} X \Theta - X^{T} Y\right )=0$
$\Theta =\left ( X^{T} X\right )^{-1}X^{T}Y$
可以求出 $\Theta$ ，但是这里有个前提条件是需要可逆的
梯度下降法求最优解
梯度下降算法的基本公式： $\theta _{j} = \theta _{j} - \alpha \frac{\partial J\left ( \theta \right )}{\partial \theta j}$

根据步长、学习率 $\alpha$ 沿着梯度、偏导数 $\frac{\partial J\left ( \theta \right )}{\partial \theta j}$ 的反方向动态更新 $\theta _{j}$ ，以求得到最优解

$\frac{\partial J\left ( \theta \right )}{\partial \theta j} = \frac{1}{2m}\sum_{i=1}^{m}\left ( 2\left ( y^{i} -h_{\theta }\left ( x^{i} \right )\right ) \frac{\partial \left ( y^{i} -h_{\theta }\left ( x^{i} \right )\right ) }{\partial\theta_{j}}\right )$
$=-\frac{1}{m}\sum_{i=1}^{m}\left (\left ( y^{i} -h_{\theta }\left ( x^{i} \right ) \right )x_{j}^{i}\right )$
带入基本公式可得到批量梯度下降式子：
$\theta _{j} = \theta _{j} - \frac{\alpha}{m}\sum_{i=1}^{m}\left (\left ( h_{\theta }\left ( x^{i} \right )-y^{i} \right )x_{j}^{i}\right )$
通过不断更新参数，最终找出 $\theta$ 的最优解