线性回归原理理解——liner regression

最新推荐文章于 2024-07-26 13:48:51 发布

王者印记ღ( ´･ᴗ･` )

最新推荐文章于 2024-07-26 13:48:51 发布

阅读量689

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/u013435866/article/details/89388660

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

线性回归模型讲解

个人理解笔记，方便个人学习。

首先线性回归，适用用于模型最好是线性，如果不是线性那可以用其他方法神经网络啊，对于线性的数据x（i）分别指向y（i）

我想干啥子那，我想找到一个数w，然后令

${y_i} = {w^T}{x_i} + {\varepsilon _i}$ （2）

这就完美了，但是现实不完美肯定不完美，肯定得有个误差Difference，假设为ε ，这个误差在现实中肯定是服从高斯分布的，别问为什么，简单来讲就是预测身高的时候，所有人都是姚明或者都是潘长江的话，那这个世界就乱了，因为我们正常人的身高都是1.70左右，姚明就是异常点，大概这么理解。

p(ε )表示概率那么公式找的

p(d)到底代表什么意思，她代表我预测的y（i）等于真实值的概率，理解这一点很重要，因为啊接下来，我想要是所有的预测都等于真实值的该多好，那就是所有的预测值都最好都接近真实值，就是概率问题嘛

这个表达式的意思，我也不理解好久没看了，我查了一下，这个叫条件概率，就是，这个是什么意思那，和同学讨论之后得出这样的结果，当w=w（i）的情况下，x(i)刚好预测结果是y(i)的概率，大白话讲就是：我们不用管式三，我们想：

我在预测身高，那我预测的结果应该服从什么分布？？？？必定是高斯分布，姚明也是独立的个体，我们在预测姚明的时候预测正确的概率很低，为什么？因为姚明在在正态分布的边缘，这里就不难理解啊，我就当在预测身高，不用管什么误差！

接下来我想干啥，要是所有人都预测正确多好，那概率就是所有人相乘的概率嘛

$L\left( w \right) {\rm{ = }}\prod\limits_{i = 1}^m {p\left( {{y_i}\left| {{x_i};w} \right.} \right)} = \prod\limits_{i = 1}^m {\frac{1}{{\sqrt {2\pi } \sigma }}} \exp \left( { - \frac{{{{\left( {{y_i} - {w^T}{x_i}} \right)}^2}}}{{2{\sigma ^2}}}} \right)$

（5）

对于这个式子学术上叫他，最大似然估计，我们想一下我应该想让他越大越好吧，那样我的模型应该是最完美的吧，求他的最大值，不太好求，对数相乘改为相加。

$\begin{array}{l} \ell\left( w \right) = \log \prod\limits_{i = 1}^m {\frac{1}{{\sqrt {2\pi } \sigma }}} \exp \left( { - \frac{{{{\left( {{y_i} - {w^T}{x_i}} \right)}^2}}}{{2{\sigma ^2}}}} \right)\\ = \sum\limits_{i = 1}^m {\log \frac{1}{{\sqrt {2\pi } \sigma }}} \exp \left( { - \frac{{{{\left( {{y_i} - {w^T}{x_i}} \right)}^2}}}{{2{\sigma ^2}}}} \right)\\ = \sum\limits_{i = 1}^m {\log \frac{1}{{\sqrt {2\pi } \sigma }}} + \sum\limits_{i = 1}^m {log\left( {\exp \left( { - \frac{{{{\left( {{y_i} - {w^T}{x_i}} \right)}^2}}}{{2{\sigma ^2}}}} \right)} \right)} \\ = m\log \frac{1}{{\sqrt {2\pi } \sigma }} - \sum\limits_{i = 1}^m {\frac{{{{\left( {{y_i} - {w^T}{x_i}} \right)}^2}}}{{2{\sigma ^2}}}} \\ = m\log \frac{1}{{\sqrt {2\pi } \sigma }} - \frac{1}{{{\sigma ^2}}}\frac{1}{2}\sum\limits_{i = 1}^m {{{\left( {{y_i} - {w^T}{x_i}} \right)}^2}} \end{array}$

（6）化简这个公式，得到目标函数

注意：这里我们的式子（6）到式子（7）不相等啊，式子(7)只是取了其中一部分而且这一部分是负值！！！！！！！！

这也是最小二乘法越小越好的原因！他越小我们估计的越准确！！！！！！！

$J(w) = \frac{1}{2}\sum\limits_{i = 1}^m {{{\left( {{y_i} - {w^T}{x_i}} \right)}^2}} \\ = \frac { 1 } { 2 } \left\| \left[ \begin{array} { c } { y _ { 1 } - w ^ { T } x _ { 1 } } \\ { y _ { 2 } - w ^ { T } x _ { 2 } } \\ { \cdots } \\ { y _ { m } - w ^ { T } x _ { m } } \end{array} \right] \right\| ^ { 2 }= \frac { 1 } { 2 } \left\| \left[ \begin{array} { l } { y _ { 1 } } \\ { y _ { 2 } } \\ { \cdots } \\ { y _ { m } } \end{array} \right] - w ^ { T } \left[ \begin{array} { c } { x _ { 1 } } \\ { x _ { 2 } } \\ { \cdots } \\ { x _ { m } } \end{array} \right] \right\| ^ { 2 } \\ = \frac{1}{2}{\left\| {y - {w^T}X} \right\|^2} = \frac{1}{2}{\left( {y - {w^T}x} \right)^T}\left( {y - {w^T}x} \right)$

（7）（最小二乘法）

不管我们求最大值或者最小值都得求偏导数，因此求偏导，当然我们想求最小值

$\begin{array}{l} \frac{{\partial J\left( w \right)}}{{\partial w}} = \frac{1}{2}\frac{\partial }{{\partial w}}\left( {{{\left( {y - {w^T}x} \right)}^T}\left( {y - {w^T}x} \right)} \right)\\ = \frac{1}{2}\frac{\partial }{{\partial w}}\left( {{{\left( {y - Xw} \right)}^T}\left( {y - Xw} \right)} \right)\\ = \frac{1}{2}\frac{\partial }{{\partial w}}\left( {{w^T}{X^T}Xw - 2{w^T}Xy + {y^T}y} \right)\\ {\rm{ = }}\frac{1}{2}\left( {{X^T}Xw{\rm{ + }}{X^T}Xw{\rm{ - }}2Xy} \right)\\ {\rm{ = }}{X^T}Xw{\rm{ - }}Xy \end{array}$