线性回归原理理解——liner regression

线性回归模型讲解

个人理解笔记,方便个人学习。

首先线性回归,适用用于模型最好是线性,如果不是线性那可以用其他方法神经网络啊,对于线性的数据x(i)分别指向y(i)

我想干啥子那,我想找到一个数w,然后令  

                                                                    {y_i} = {w^T}{x_i} + {\varepsilon _i}                  (2)

这就完美了,但是现实不完美肯定不完美,肯定得有个误差Difference,假设为ε ,这个误差在现实中肯定是服从高斯分布的,别问为什么,简单来讲就是预测身高的时候,所有人都是姚明或者都是潘长江的话,那这个世界就乱了,因为我们正常人的身高都是1.70左右,姚明就是异常点,大概这么理解。

p(ε )表示概率那么公式找的

p(d)到底代表什么意思,她代表  我预测的y(i)等于真实值的概率,理解这一点很重要,因为啊接下来,我想要是所有的预测都等于真实值的该多好,那就是所有的预测值都最好都接近真实值,就是概率问题嘛

这个表达式的意思,我也不理解好久没看了,我查了一下,这个叫条件概率,就是,这个是什么意思那,和同学讨论之后得出这样的结果,当w=w(i)的情况下,x(i)刚好预测结果是y(i)的概率,大白话讲就是:我们不用管式三,我们想:

我在预测身高,那我预测的结果应该服从什么分布????必定是高斯分布,姚明也是独立的个体,我们在预测姚明的时候预测正确的概率很低,为什么?因为姚明在在正态分布的边缘,这里就不难理解啊,我就当在预测身高,不用管什么误差!

接下来我想干啥,要是所有人都预测正确多好,那概率就是所有人相乘 的概率嘛

L\left( w \right) {\rm{ = }}\prod\limits_{i = 1}^m {p\left( {​{y_i}\left| {​{x_i};w} \right.} \right)} = \prod\limits_{i = 1}^m {\frac{1}{​{\sqrt {2\pi } \sigma }}} \exp \left( { - \frac{​{​{​{\left( {​{y_i} - {w^T}{x_i}} \right)}^2}}}{​{2{\sigma ^2}}}} \right)

(5)    

对于这个式子学术上叫他, 最大似然估计,我们想一下我应该想让他越大越好吧,那样我的模型应该是最完美的吧,求他的最大值,不太好求,对数相乘改为相加。

\begin{array}{l} \ell\left( w \right) = \log \prod\limits_{i = 1}^m {\frac{1}{​{\sqrt {2\pi } \sigma }}} \exp \left( { - \frac{​{​{​{\left( {​{y_i} - {w^T}{x_i}} \right)}^2}}}{​{2{\sigma ^2}}}} \right)\\ = \sum\limits_{i = 1}^m {\log \frac{1}{​{\sqrt {2\pi } \sigma }}} \exp \left( { - \frac{​{​{​{\left( {​{y_i} - {w^T}{x_i}} \right)}^2}}}{​{2{\sigma ^2}}}} \right)\\ = \sum\limits_{i = 1}^m {\log \frac{1}{​{\sqrt {2\pi } \sigma }}} + \sum\limits_{i = 1}^m {log\left( {\exp \left( { - \frac{​{​{​{\left( {​{y_i} - {w^T}{x_i}} \right)}^2}}}{​{2{\sigma ^2}}}} \right)} \right)} \\ = m\log \frac{1}{​{\sqrt {2\pi } \sigma }} - \sum\limits_{i = 1}^m {\frac{​{​{​{\left( {​{y_i} - {w^T}{x_i}} \right)}^2}}}{​{2{\sigma ^2}}}} \\ = m\log \frac{1}{​{\sqrt {2\pi } \sigma }} - \frac{1}{​{​{\sigma ^2}}}\frac{1}{2}\sum\limits_{i = 1}^m {​{​{\left( {​{y_i} - {w^T}{x_i}} \right)}^2}} \end{array}

(6)化简这个公式,得到目标函数   

注意:这里我们的式子(6)到式子(7)不相等啊,式子(7)只是取了其中一部分而且这一部分是负值!!!!!!!!

这也是最小二乘法越小越好的原因!他越小我们估计的越准确!!!!!!!

 

J(w) = \frac{1}{2}\sum\limits_{i = 1}^m {​{​{\left( {​{y_i} - {w^T}{x_i}} \right)}^2}} \\ = \frac { 1 } { 2 } \left\| \left[ \begin{array} { c } { y _ { 1 } - w ^ { T } x _ { 1 } } \\ { y _ { 2 } - w ^ { T } x _ { 2 } } \\ { \cdots } \\ { y _ { m } - w ^ { T } x _ { m } } \end{array} \right] \right\| ^ { 2 }= \frac { 1 } { 2 } \left\| \left[ \begin{array} { l } { y _ { 1 } } \\ { y _ { 2 } } \\ { \cdots } \\ { y _ { m } } \end{array} \right] - w ^ { T } \left[ \begin{array} { c } { x _ { 1 } } \\ { x _ { 2 } } \\ { \cdots } \\ { x _ { m } } \end{array} \right] \right\| ^ { 2 } \\ = \frac{1}{2}{\left\| {y - {w^T}X} \right\|^2} = \frac{1}{2}{\left( {y - {w^T}x} \right)^T}\left( {y - {w^T}x} \right)

          (7)(最小二乘法)

不管我们求最大值或者最小值都得求偏导数,因此求偏导,当然我们想求最小值                                             

\begin{array}{l} \frac{​{\partial J\left( w \right)}}{​{\partial w}} = \frac{1}{2}\frac{\partial }{​{\partial w}}\left( {​{​{\left( {y - {w^T}x} \right)}^T}\left( {y - {w^T}x} \right)} \right)\\ = \frac{1}{2}\frac{\partial }{​{\partial w}}\left( {​{​{\left( {y - Xw} \right)}^T}\left( {y - Xw} \right)} \right)\\ = \frac{1}{2}\frac{\partial }{​{\partial w}}\left( {​{w^T}{X^T}Xw - 2{w^T}Xy + {y^T}y} \right)\\ {\rm{ = }}\frac{1}{2}\left( {​{X^T}Xw{\rm{ + }}{X^T}Xw{\rm{ - }}2Xy} \right)\\ {\rm{ = }}{X^T}Xw{\rm{ - }}Xy \end{array}

          (8)      

5. 令偏导等于0:

                                                   \frac{​{\partial J\left( w \right)}}{​{\partial w}} = {\rm{0}}          (9)       

得到:

                                                {X^T}Xw = Xy         (10)         

情况一:可逆,唯一解。令公式(10)为零可得最优解为:

                                                      w^* = {\left( {​{X^T}X} \right)^{ - 1}}X^Ty         (11)    

               学得的线性回归模型为:

                                               \mathop y\limits^ \wedge = {w^T}X = {X^T}w = {X^T}{\left( {​{X^T}X} \right)^{ - 1}}{X^T}y      (12)       

情况二:不可逆,可能有多个解。选择哪一个解作为输出,将有学习算法的偏好决定,常见的做法是增加扰动。

                                                 {w^*} = {\left( {​{X^T}X + \lambda I} \right)^{ - 1}}{X^T}y      

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值