1.线性回归-矩阵表达形式

最新推荐文章于 2025-03-03 10:41:57 发布

取个名字真难呐

最新推荐文章于 2025-03-03 10:41:57 发布

阅读量4.5k

点赞数 4

分类专栏：入门学习笔记

本文链接：https://blog.csdn.net/scar2016/article/details/115269645

版权

入门学习笔记专栏收录该内容

6 篇文章

订阅专栏

文章目录

1. 线性回归-理论知识
2. 最小二乘估计：几何意义解释

来自于白板深度学习，感谢up主：https://www.bilibili.com/video/BV1hW41167iL?p=1

1. 线性回归-理论知识

1.1. 数据定义：我们首先定义数据集合 :` $D=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\},其中x_i\subseteq R^p,y_i\subseteq R,i=1,2,....,N$ ，
数据用矩阵表示为:
$X=(x_1,x_2,...,x_N)^T= \begin{pmatrix} x_1^T\\x_2^T\\\vdots\\x_N^T \end{pmatrix}=\begin{pmatrix} x_{11}&x_{12}&...&x_{1p}\\x_{21}&x_{22}&...&x_{2p}\\\vdots&\vdots&\vdots&\vdots\\x_{N1}&x_{N2}&...&x_{Np}\end{pmatrix}_{N \times P},其中x_i默认为p维列向量，那么x_i^T=(x_{i1},x_{i2},...,x_{ip}),$

其中X_i为一个单独的样本集合,一个样本有p个特征。用单独一个列向量表示。
定义数据值Y为： $Y=\begin{pmatrix} y_1^T\\y_2^T\\\vdots\\y_N^T \end{pmatrix}$
设拟合的目标函数: $\hat{y}=f(w)=W^Tx；(为啥不用W^T+b,因为b可以表示为W_0\times (b_0=1)表示)$

1.2. 最小二乘法(矩阵表达：几何意义)
1.2.1 用图像表示原始数据和线性回归线的关系：
在这里插入图片描述
$我们定义损失函数L(W)=||\sum_{i=1}^{N}W^TX_i-y_i||^2=(\sum_{i=1}^{N}W^TX_i-y_i)^2,$ 我们知道pytorch里面都是矩阵的形式进行运算，所以我们更希望用矩阵形式表示L(W);
$\begin{pmatrix} w^Tx_1-y_1,w^Tx_2-y_2,...,w^Tx_N-y_N \end{pmatrix}\begin{pmatrix} w^Tx_1-y_1\\w^Tx_2-y_2\\\vdots\\w^Tx_N-y_N \end{pmatrix}$
$[\begin{pmatrix} w^Tx_1,w^Tx_2,...,w^Tx_N \end{pmatrix}-(y_1,y_2,...y_N)]\begin{pmatrix} w^Tx_1-y_1\\w^Tx_2-y_2\\\vdots\\w^Tx_N-y_N \end{pmatrix}$
$[\begin{pmatrix} w^Tx_1,w^Tx_2,...,w^Tx_N \end{pmatrix}-(y_1,y_2,...y_N)]\begin{pmatrix} w^Tx_1-y_1\\w^Tx_2-y_2\\\vdots\\w^Tx_N-y_N \end{pmatrix}$
$[w^T \begin{pmatrix} x_1,x_2,...,x_N \end{pmatrix}-(y_1,y_2,...y_N)]\begin{pmatrix} w^Tx_1-y_1\\w^Tx_2-y_2\\\vdots\\w^Tx_N-y_N \end{pmatrix}$
$[W^TX^T-Y^T]\begin{pmatrix} w^Tx_1-y_1\\w^Tx_2-y_2\\\vdots\\w^Tx_N-y_N \end{pmatrix}$
$W^TX^T-Y^T][W^TX^T-Y^T]^T$
$W^TX^T-Y^T][XW-Y]$
$W^TX^TXW-W^TX^TY-Y^TXW+Y^TY（注：(W^TX^TY)^T=Y^TXW）$
$W^TX^TXW-W^TX^TY-Y^TXW+Y^TY$
$W^TX^TXW-W^TX^TY-Y^TXW+Y^TY$
$W^TX^TXW-2W^TX^TY+Y^TY$
$综上所述 L(W)=W^TX^TXW-2W^TX^TY+Y^TY$ L(W)对W进行矩阵求导可得：
$\frac{\partial}{\partial}^{L(W)}_{W}=2X^TXW-2X^TY+0=2X^TXW-2X^TY=0$ 由此可得： $\hat{W}=argmin(L(W))=(X^TX)^{-1}X^TY$ ;重点结论！！！ $\hat{W}=(X^TX)^{-1}X^TY$

2. 最小二乘估计：几何意义解释

2.1 由于X 为 $X=(x_1,x_2,...,x_N)^T= \begin{pmatrix} x_1^T\\x_2^T\\\vdots\\x_N^T \end{pmatrix}=\begin{pmatrix} x_{11}&x_{12}&...&x_{1p}\\x_{21}&x_{22}&...&x_{2p}\\\vdots&\vdots&\vdots&\vdots\\x_{N1}&x_{N2}&...&x_{Np}\end{pmatrix}_{N \times P}$ ，那么我们可以把X按照一列为一个向量表示 $X=(X_1,X_2,...,X_p)$ 那么 $f(w)=W^TX=X^T\beta$ ,那么就形成了有P维组成的向量空间(注：空间S 由一组维度为P的基组成)，那么最小二乘法可以看做是向量Y到向量空间S的最短距离，如图所示：
在这里插入图片描述
$向量X_M由向量空间X_1,...,X_p组成，由图可得，最短距离应该是向量Y向空间S做的垂线距离[投影],X_M=\vec X\vec\beta$
法向量可表示 $\vec a=(\vec Y-\vec X\vec\beta),由于法向量\vec a垂直于S空间，所以\vec a^T X=0$ ，综上所述：
$\vec X^T(\vec Y-\vec X\vec\beta)=\vec0$ 展开上公式可得： $X^TY=X^TX\beta,所以 \beta=(X^TX)^{-1}X^TY$ ;居然跟上面矩阵求导的结果一模一样，向量形式更加的形象。