【Datawhale-机器学习-Task02-线性回归】-CSDN博客

本文链接：https://blog.csdn.net/qumule/article/details/139811940

前言
Datawhale开源学习：机器学习，202406
西瓜书+南瓜书第三章线性回归

先上个图简单总结下基本流程。
线性回归

极大似然估计：
概率：是已知模型的概率，去推测执行后的结果。
似然：就是通过事实（数据），来推断出函数参数最有可能的值。
举例，根据服从正态分布的 $X\sim N\left ( \mu ,\sigma ^{2} \right )$ 的一批观测样本，随机变量X的概率密度函数为：
$p\left(x ; \mu, \sigma^{2}\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right)$
得到似然函数： $L\left(\mu, \sigma^{2}\right)=\prod_{i=1}^{n} p\left(x_{i} ; \mu, \sigma^{2}\right)=\prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}\right)$
极大似然：求解 $\mu$ 、 $\sigma ^{2}$ ，使得 $L\left(\mu, \sigma^{2}\right)$ 最大。

定义1：
凸函数，设 $D\subset R^{n}$ 是非空凸集，f是定义在D上的函数，如果对任意的， $x^{1}$ 、 $x^{2}$ ∈D以及α∈(0,1)，均有
$f（\alpha x^{1} +\left ( 1-\alpha \right )x^{2} ）\le \alpha f\left ( x^{1} \right ) + \left (1-\alpha \right ) f\left ( x^{2} \right )$
则称f为D上的凸函数。

定理1：如果f(x)的Hessian矩阵 $\bigtriangledown ^{2} f\left ( x \right )$ 在D上是半正定的，则f(x)是D上的凸函数；如果∇^2 f(x)在D上是正定的，则f(x)是D上的严格凸函数。

定理2：若f(x)是凸函数，且f(x)一阶连续可微，则 $x^{*}$ 是全局解的充分必要条件是其梯度等于零向量，即 $\bigtriangledown f\left ( x^{*} \right ) =0$ 。

定义2：梯度，多元一次函数在各分量x_i处偏导数均存在，则称函数f(x)在x处一阶可导，其梯度函数（一阶函数）为
$\bigtriangledown f\left ( x \right ) = \frac{\partial f\left ( x \right )}{\partial x} =\begin{bmatrix}\frac{\partial f\left ( x \right )}{\partial x_{1} } \\\frac{\partial f\left ( x \right )}{\partial x_{2} } \\\vdots \\\frac{\partial f\left ( x \right )}{\partial x_{n} } \end{bmatrix}$

另外，Hessian矩阵就是f(x)二阶求导；
顺序主子式：
$H_{i} =\begin{vmatrix} a_{11} & a_{12} & \dots & a_{1n}\\ a_{21}& a_{22} & \dots & a_{2n}\\ \dots& \dots & \dots &\dots \\ a_{n1}& a_{n2}& \dots &a_{21} \end{vmatrix}$
其中，i=1，2…n，称为矩阵 $A=\left ( a_{ij} \right ) _{n\times n}$ 的顺序主子式。
顺序主子式非负，该矩阵为半正定矩阵；顺序主子式大于零，该矩阵为正定矩阵。
线性回归的关键是求解到下面公式中w和b的最优解。需要证明其是凸函数。
$\left(w^{*}, b^{*}\right)=\underset{(w, b)}{\arg \min } \sum_{i=1}^{m}\left(y_{i}-w x_{i}-b\right)^{2}$
令
$b)=\sum_{i=1}^{m}\left(y_{i}-w x_{i}-b\right)^{2}$
则有
$\frac{\partial E\left ( w,b \right ) }{\partial w } =2\cdot {\textstyle \sum_{i=1}^{m}} \left ( y_{i}-wx_{i} -b \right )\left ( -x_{i} \right )$
$\frac{\partial E\left ( w,b \right ) }{\partial w } =2\cdot {\textstyle \sum_{i=1}^{m}} \left ( wx_{i} +b-y_{i} \right )\left ( x_{i} \right )$
$\frac{\partial E\left ( w,b \right ) }{\partial w } =2w\cdot {\textstyle \sum_{i=1}^{m}} \left ( x_{i}^{2} \right )+2 {\textstyle \sum_{i=1}^{m}} \left ( b-y_{i} \right )x_{i}$
另外，
$\frac{\partial E\left ( w,b \right ) }{\partial b } =2 {\textstyle \sum_{i=1}^{m}} \left ( y_{i}-w x_{i}-b \right )\left ( -1 \right )$
$\frac{\partial E\left ( w,b \right ) }{\partial b } =2 {\textstyle \sum_{i=1}^{m}} \left ( w x_{i}+b-y_{i} \right )$
$\frac{\partial E\left ( w,b \right ) }{\partial b } =2 \left (mb- {\textstyle \sum_{i=1}^{m}}\left (y_{i} -wx_{i} \right ) \right )$
定理1证明过程略，上班的人实在是没时间细写；
根据定理2，有
$\begin{cases}\frac{\partial E\left ( w,b \right ) }{\partial w } =0 \\ \frac{\partial E\left ( w,b \right ) }{\partial b } =0 \end{cases}$
则有
$\begin{cases}2w {\textstyle \sum_{i=1}^{m}}\left ( x_{i}^{2} \right )+ 2 {\textstyle \sum_{i=1}^{m}}\left ( b-y_{i} \right ) x_{i} =0 \\ b=\frac{1}{m} {\textstyle \sum_{i=1}^{m}} \left ( y_{i} -wx_{i} \right ) \end{cases}$
将b进行简化，得到
$b=\frac{1}{m} {\textstyle \sum_{i=1}^{m}} \left ( y_{i} \right )-\frac{1}{m} {\textstyle \sum_{i=1}^{m}}\left ( wx_{i} \right )$
$b=\bar{y} -w\bar{x}$
带入 ${\textstyle \sum_{i=1}^{m}}\left ( x_{i}^{2} \right )+ 2 {\textstyle \sum_{i=1}^{m}}\left ( b-y_{i} \right ) x_{i} =0$ 中，有
${\textstyle \sum_{i=1}^{m}}\left ( x_{i}^{2} \right ) = {\textstyle \sum_{i=1}^{m}}\left ( y_{i} -b \right )\left ( x_{i} \right )$
${\textstyle \sum_{i=1}^{m}}\left ( x_{i}^{2} \right ) = {\textstyle \sum_{i=1}^{m}}\left ( x_{i}y_{i} \right ) -{\textstyle \sum_{i=1}^{m}}\left ( x_{i}b \right )$
${\textstyle \sum_{i=1}^{m}}\left ( x_{i}^{2} \right ) = {\textstyle \sum_{i=1}^{m}}\left ( x_{i}y_{i} \right ) - {\textstyle \sum_{i=1}^{m}}x_{i}\left ( \bar{y}-w\bar{x} \right )$
${\textstyle \sum_{i=1}^{m}}\left ( x_{i}^{2} \right ) = {\textstyle \sum_{i=1}^{m}}\left ( x_{i}y_{i} \right ) - {\textstyle \sum_{i=1}^{m}}x_{i} \bar{y} +w {\textstyle \sum_{i=1}^{m}}x_{i} \bar{x}$
${\textstyle \sum_{i=1}^{m}}\left ( x_{i}^{2} \right )-w {\textstyle \sum_{i=1}^{m}}x_{i} \bar{x} = {\textstyle \sum_{i=1}^{m}}\left ( x_{i}y_{i} \right ) - {\textstyle \sum_{i=1}^{m}}x_{i} \bar{y}$
$\frac{{\textstyle \sum_{i=1}^{m}}\left ( x_{i}y_{i} \right ) - {\textstyle \sum_{i=1}^{m}}x_{i} \bar{y} }{{\textstyle \sum_{i=1}^{m}}\left ( x_{i}^{2} \right )-{\textstyle \sum_{i=1}^{m}}x_{i} \bar{x}}$
$\frac{{\textstyle \sum_{i=1}^{m}} y_{i} \left ( x_{i}-\bar{x} \right ) }{{\textstyle \sum_{i=1}^{m}}\left ( x_{i}^{2} \right )-\frac{1}{m} \left ( {\textstyle \sum_{i=1}^{m}}x_{i} \right )^{2} }$

多元线性回归：
$\widehat{w} ^{*} =\underset{\widehat w }{\arg \min } \left ( y-X\widehat{w} \right ) ^{T} \left (y-X\widehat{w} \right )$
直接点就是多元函数求最优值问题，跟之前类似，即凸函数求解最优值的问题。需要分两步：第一证明其是凸函数（过程同样略过），第二步求解。令 $E_{{\widehat w }} =\underset{\widehat w }{\arg \min } \left ( y-X\widehat{w} \right ) ^{T} \left (y-X\widehat{w} \right )$ ，对 ${\widehat w }$ 求导，则有
$\frac{\partial E_{\widehat{w}} }{\partial \widehat{w}} =\frac{\partial\left ( y^{T}y-X^{T} \widehat{w}^{T}y-y^{T}X\widehat{w}+X^{T}\widehat{w}^{T}X\widehat{w} \right ) }{\partial \widehat{w}}$
$\frac{\partial E_{\widehat{w}} }{\partial \widehat{w}} =\frac{\partial\left (-X^{T} \widehat{w}^{T}y-y^{T}X\widehat{w}+X^{T}\widehat{w}^{T}X\widehat{w} \right ) }{\partial \widehat{w}}$
$\frac{\partial E_{\widehat{w}} }{\partial \widehat{w}} =-2yX^{T} +\frac{\partial \left ( X^{T}\widehat{w}^{T}X\widehat{w} \right ) }{\partial \widehat{w}}$
$\frac{\partial E_{\widehat{w}} }{\partial \widehat{w}} =-2yX^{T} +2X^{T} X\widehat{w}$
$\frac{\partial E_{\widehat{w}} }{\partial \widehat{w}} =2X^{T}\left (X\widehat{w}-y \right )$
其中用到公式， $\frac{\partial a^{T}x }{\partial x } =\frac{\partial x^{T}a }{\partial x } =a$ 以及 $x^T Ax)/∂x=(A+A^T )x$ 。

最终有 $\widehat{w} ^{*} =\left ( X^{T} X \right )^{-1} X^{T}y$ .

线性回归模型：
线性回归模型： $y=w^T x+b$
对数线性模型： $ln y=w^T x+b$
广义线性模型： $y=g^{-1} \left ( w^{T}x+b \right ) )$
其中单调可微函数g(∙)：连续且充分光滑。
理解：对数及广义线性模型是为了简化模型里面数据与标记的复杂非线性关系，更加简化理解和运算，本质是函数映射。

视频总结：机器学习三要素，模型、策略、算法。

模型：选择 $y = w x + b$ 还是 $y=Ax^2$ ；
策略：根据评价标准，选取最优模型策略，产生损失函数；
算法：算出w、b分别取值多少合适。

感谢Datawhale小组所做的贡献，本次学习主要参考视频：
https://www.bilibili.com/video/BV1Mh411e7VU?p=3&vd_source=7f1a93b833d8a7093eb3533580254fe4
https://www.bilibili.com/video/BV1Mh411e7VU?p=4&vd_source=7f1a93b833d8a7093eb3533580254fe4