【温故而知新】线性回归(Linear Regression)

本文主要以下几个角度来讲解线性回归:

  • 最小二乘法LSE(矩阵表达,几何意义)
  • 概率角度:最小二乘法LSE——noise为Gaussian MLE
  • 正则化:
    • L1——Lasso
    • L2——Ridge
  • 正则化的几何解释

最小二乘法

定义为:通过给定样本数据集D=\left \{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\right \}, x_i \in \mathbb{R}^{p}, y_i \in \mathbb{R}, i =1,...,N,试图学习到这样的一个模型,使得对于任意的输入特征向量x=(x_1, x_2, ..., x_N)^T,模型的预测输出f(x)能够表示为输入特征向量\large x的线性函数,即满足:

                   f(x_i)=w_1x_{i1}+w_2x_{i2}+...+w_px_{ip}+b                          

也可以写成矩阵的形式:

                   f(X)=W^TX+b

其中,W=(w_1, w_2, ... , w_p)^Tb称为模型的参数。

为了求解线性模型的参数Wb,首先我们定义损失函数,在回归任务中,常用的损失函数是均方误差:

                   L\left ( W, b \right ) = \frac{1}{2} \sum_{i=1}^{N}\left (f(x_i)-y_i \right )^2

优化损失函数就是我们的目标,基于均方误差损失函数来求解模型参数的方差,也就是我们熟悉的最小二乘法,最小二乘法的思想其实就是寻找一个超平面,使得训练数据集D中的所有样本点到这个超平面的欧式距离最小。

OK,接下来就是优化问题了,如何取优化该损失函数,从而获得最优模型参数W^*b^*,因为该损失函数是凸函数,根据极值存在的必要条件,我们可以运用解析法进行求解。

下面我们将给出详细的推导求解Wb的过程:

1. 首先将参数Wb进行合并,用\theta来进行表示:\theta=\left( w_1, w_2, ..., w_p, b \right )^T_{1*(p+1)}, 容易知道\large \thetap+1维度。

对输入特征向量进行改写,,则全体训练集,可用矩阵进行如下表示:

                   X=\begin{pmatrix} x_1^T \\ x_2^T \\ ... \\ x_N^T \\ I\end{pmatrix}=\begin{pmatrix} x_{11} & x_{12} & ... & x_{1p} & 1 \\ x_{21} & x_{22} & ... & x_{2p} &1\\ ... & ... & ... & ... & ...\\ x_{N1} & x_{N2} & ... & x_{Np} & 1 \end{pmatrix}_{N*(p+1)}

对输入特征向量的输出标签,可以改写为:

                   Y=\left( y_1, y_2, ..., y_N\right)^T

2. 根据1.我们可以知道\large x_i是一个(p+1)\times 1的列向量,这样模型的预测结果可以写成矩阵形式:

                   f \left( x_i \right)=\theta^Tx_i

3. 根据1和2,损失函数可以转化为矩阵形式:

                   L\left( \theta \right ) = \sum_{i=1}^{N}\left \| \theta^Tx_i-y_i \right \|^{2}=\sum_{i=1}^{N}( \theta^Tx_i-y_i )^{2}

                             =\begin{pmatrix} \theta^Tx_1-y_1 & \theta^Tx_2-y_2 & ... & \theta^Tx_N-y_N \end{pmatrix} \begin{pmatrix} \theta^Tx_1-y_1 \\ \theta^Tx_2-y_2 \\ ... \\ \theta^Tx_N-y_N \end{pmatrix}

                             =(\theta^TX^T-Y^T)(X\theta-Y)         

根据极值存在的必要条件,下面进行对参数\large \theta的求导:

Method 1:

      \large \bigtriangledown_\theta L(\theta) =\bigtriangledown_\theta \frac{1}{2}(X\theta-Y)^T(X\theta-Y)

                       \large =\frac{1}{2}\bigtriangledown_\theta(\theta^TX^TX\theta - \theta^TX^TY-Y^TX\theta+Y^TY),这里的\large {\color{Red} Y^TX\theta \in \mathbb{R}, \theta^TX^TY \in \mathbb{R}}

                       \large =\frac{1}{2}\bigtriangledown_\theta(\theta^TX^TX\theta - 2\theta^TX^TY+Y^TY)

                       

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值