【温故而知新】线性回归(Linear Regression)

最新推荐文章于 2023-01-10 00:26:42 发布

caicaiatnbu

最新推荐文章于 2023-01-10 00:26:42 发布

阅读量916

点赞数

分类专栏： ML算法实现-python

本文链接：https://blog.csdn.net/caicaiatnbu/article/details/104151491

版权

本文主要以下几个角度来讲解线性回归：

最小二乘法LSE（矩阵表达，几何意义）
概率角度：最小二乘法LSE——noise为Gaussian MLE
正则化：
- L1——Lasso
- L2——Ridge
正则化的几何解释

最小二乘法

定义为：通过给定样本数据集 $D=\left \{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\right \}$ , $x_i \in \mathbb{R}^{p}$ , $y_i \in \mathbb{R}, i =1,...,N$ ，试图学习到这样的一个模型，使得对于任意的输入特征向量 $x=(x_1, x_2, ..., x_N)^T$ ，模型的预测输出 $f(x)$ 能够表示为输入特征向量 $\large x$ 的线性函数，即满足：

$f(x_i)=w_1x_{i1}+w_2x_{i2}+...+w_px_{ip}+b$

也可以写成矩阵的形式：

$f(X)=W^TX+b$

其中， $W=(w_1, w_2, ... , w_p)^T$ 和 $b$ 称为模型的参数。

为了求解线性模型的参数 $W$ 和 $b$ ，首先我们定义损失函数，在回归任务中，常用的损失函数是均方误差：

$L\left ( W, b \right ) = \frac{1}{2} \sum_{i=1}^{N}\left (f(x_i)-y_i \right )^2$

优化损失函数就是我们的目标，基于均方误差损失函数来求解模型参数的方差，也就是我们熟悉的最小二乘法，最小二乘法的思想其实就是寻找一个超平面，使得训练数据集 $D$ 中的所有样本点到这个超平面的欧式距离最小。

OK，接下来就是优化问题了，如何取优化该损失函数，从而获得最优模型参数 $W^*$ 和 $b^*$ ,因为该损失函数是凸函数，根据极值存在的必要条件，我们可以运用解析法进行求解。

下面我们将给出详细的推导求解 $W$ 和 $b$ 的过程：

1. 首先将参数 $W$ 和 $b$ 进行合并，用 $\theta$ 来进行表示： $\theta=\left( w_1, w_2, ..., w_p, b \right )^T_{1*(p+1)}$ , 容易知道 $\large \theta$ 是 $p+1$ 维度。

对输入特征向量进行改写，，则全体训练集，可用矩阵进行如下表示：

$X=\begin{pmatrix} x_1^T \\ x_2^T \\ ... \\ x_N^T \\ I\end{pmatrix}=\begin{pmatrix} x_{11} & x_{12} & ... & x_{1p} & 1 \\ x_{21} & x_{22} & ... & x_{2p} &1\\ ... & ... & ... & ... & ...\\ x_{N1} & x_{N2} & ... & x_{Np} & 1 \end{pmatrix}_{N*(p+1)}$

对输入特征向量的输出标签，可以改写为：

$Y=\left( y_1, y_2, ..., y_N\right)^T$

2. 根据1.我们可以知道 $\large x_i$ 是一个 $(p+1)\times 1$ 的列向量，这样模型的预测结果可以写成矩阵形式：

$f \left( x_i \right)=\theta^Tx_i$

3. 根据1和2，损失函数可以转化为矩阵形式：

$L\left( \theta \right ) = \sum_{i=1}^{N}\left \| \theta^Tx_i-y_i \right \|^{2}=\sum_{i=1}^{N}( \theta^Tx_i-y_i )^{2}$

$=\begin{pmatrix} \theta^Tx_1-y_1 & \theta^Tx_2-y_2 & ... & \theta^Tx_N-y_N \end{pmatrix} \begin{pmatrix} \theta^Tx_1-y_1 \\ \theta^Tx_2-y_2 \\ ... \\ \theta^Tx_N-y_N \end{pmatrix}$

$=(\theta^TX^T-Y^T)(X\theta-Y)$

根据极值存在的必要条件，下面进行对参数 $\large \theta$ 的求导：

Method 1:

$\large \bigtriangledown_\theta L(\theta) =\bigtriangledown_\theta \frac{1}{2}(X\theta-Y)^T(X\theta-Y)$

$\large =\frac{1}{2}\bigtriangledown_\theta(\theta^TX^TX\theta - \theta^TX^TY-Y^TX\theta+Y^TY)$ ,这里的 $\large {\color{Red} Y^TX\theta \in \mathbb{R}, \theta^TX^TY \in \mathbb{R}}$

$\large =\frac{1}{2}\bigtriangledown_\theta(\theta^TX^TX\theta - 2\theta^TX^TY+Y^TY)$

最低0.47元/天解锁文章

caicaiatnbu

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【温故而知新】线性回归(Linear Regression)

本文主要以下几个角度来讲解线性回归：最小二乘法LSE（矩阵表达，几何意义）概率角度：最小二乘法LSE——noise为Gaussian MLE 正则化： L1——Lasso L2——Ridge 正则化的几何解释最小二乘法定义为：通过给定样本数据集, , ，试图学习到这样的一个模型，使得对于任意的输入特征向量，模型的预测输出能够表示为输入特征向量的线性函数，即满足： ...
复制链接

扫一扫