线性回归数学推导

最新推荐文章于 2024-07-26 13:48:51 发布

ALWAYS_FANG

最新推荐文章于 2024-07-26 13:48:51 发布

阅读量1k

点赞数 2

分类专栏：机器学习文章标签：线性回归机器学习理论推导最大似然估计

本文链接：https://blog.csdn.net/qq_38120760/article/details/82081115

版权

机器学习专栏收录该内容

24 篇文章 0 订阅

订阅专栏

我做了一个导航站（域名是挂路灯的全拼gualudeng.com)，里面精选了各种影视，动漫，黑科技，实用工具，搞笑有趣的站点，动动大家可爱的小手，点进来看看吧,良心站点。

线性回归的目标是确定一条直线，让所有样本点到这一条直线的距离之和最小。通过这一句话我们就可以自然而然地根据样本点列出目标函数

现在我们有一组高维样本点 $(X_{1},y_{1}),(X_{2},y_{2}),(X_{3},y_{3}),(X_{4},y_{4}),.......,(X_{n},y_{n})$ （其中每一个x都是m维列向量）。

我们设目标直线方程为 y = $\omega _{0}*1+\omega _{1}*x_{1}+\omega _{2}*x_{2}+\omega _{3}*x_{3}+.......\omega _{n}*x_{n}$ （这个等式里面全是单个数字没有向量）

把这个方程写作向量的形式 y = $W^{T}X$ （其中X是m+1维的列向量，W也是）

$D = \sum_{i=1}^{n}(W^{T}X_{i}-y_{i})^2$ (对于 $X_{i}$ 是在每一个n维样本点的首位补充了一个1形成的m+1维的向量) 这个式子表示n个样本点到目标直线的距离之和。此处的方程就是线性回归的损失函数。

接下来我们就要最小化损失函数来求取未知量 W 对于方程 $D = \sum_{i=1}^{n}(W^{T}X_{i}-y_{i})^2$ 我们可以得知他存在一个全局最小值（具体证明请自行百度）

所以方程导数为0处必定是全局最小值处。可以得到等式 $\frac{\partial D}{\partial W} = 0$ 下面对方程进行变换

$D = \sum_{i=1}^{n}(W^{T}X_{i}-y_{i})^2 = (W^{T}X-Y)*(W^{T}X-Y)^{T}$

（其中的X为（m+1）*n的矩阵。 $X = \begin{pmatrix} 1&1 & 1 & 1 & 1\\ x_{11}& x_{21}&x_{31} &... & x_{n1}\\ x_{12}& x_{22}& x_{32} & ... & x_{n2}\\ x_{13}& x_{23}& x_{33}& ... & x_{n3}\\ ...& ... & ... & ... & ...\\ x_{1m}& x_{2m} & x_{3m} & ...&x_{nm} \end{pmatrix}$ 每一列为一个样本。 $Y = \begin{pmatrix} y_{1} & y_{2} &y_{3} & ... & y_{n} \end{pmatrix}$ ）

$D = (W^{T}X-Y)*(W^{T}X-Y)^{T}= (W^{T}X-Y)*(X^{T}W-Y^{T})$

~~$= W^{T}XX^{T}W-{\color{Red} W^{T}XY^{T}}-YX^{T}W-YY^{T}$~~

~~$= W^{T}XX^{T}W-2YX^{T}W-YY^{T}$~~ (因为 $W^{T}XY^{T}$ 是一个常数，所以 $W^{T}XY^{T}$ = $(W^{T}XY^{T})^{T}$ = $YX^{T}W$ )

$\frac{\partial D}{\partial W} = 2XX^{T}W-2XY^{T}$ (这里需要用到矩阵求导的知识，下面给出常用的公式)

由    $\frac{\partial D}{\partial W} = 2XX^{T}W-2XY^{T}=0$ 得   $XX^{T}W = XY^{T}$ 则   $W = (XX^{T})^{-1}XY^{T}$

但是这个等式成立的条件是   $XX^{T}$ 必须可逆。即给定的样本集中不能出现重复数据，样本特征数量不能大于所给训练集样本个数。

利用最大似然估计推导出损失函数

首先给定一个先验假设，样本真实值与预测值的差值服从 $N(0,\sigma^{2})$   的正态分布    $f(x) = \frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{x^{2}}{2\sigma ^{2}}}$

对于连续性随机变量，其在某一点处的概率可以表示为    (f(x) 为随机变量的概率密度函数 dx代表x轴上的微分)

所以样本的联合概率为    $P(x) = \prod_{i=1}^{n}f(x_{i})*dx_{i}= \prod_{i=1}^{n}f(x_{i})*\prod_{i=1}^{n}dx_{i}$

由于    $\prod_{i=1}^{n}dx_{i}$   近似常量，所以对于 P(x) 求极值没有影响。所以可以写作    $P(x) = \prod_{i=1}^{n}f(x_{i})$

$l(\theta ) =\prod_{i=1}^{n} \frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(W^{T}X_{i}-y_{i})^{2}}{2\sigma ^{2}}}$

$arg\, \underset{\theta }{max} \, l(\theta ) =arg\, \underset{\theta }{max}\, \: \: ln\prod_{i=1}^{n} \frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(W^{T}X_{i}-y_{i})^{2}}{2\sigma ^{2}}}$

$=arg\: \underset{\theta }{max}\: \sum_{i=1}^{n}(\frac{-(W^{T}X_{i}-y_{i})^{2}}{2\sigma^{2}}*ln\frac{1}{\sqrt{2\pi }\sigma })$

$=arg\: \underset{\theta }{max}\: \sum_{i=1}^{n}-(W^{T}X_{i}-y_{i})^{2}$ (由于 $ln\frac{1}{\sqrt{2\pi }\sigma }$ 和 $2\sigma ^{2}$ 是常量所以在求 $arg\, \underset{\theta }{max} \, l(\theta )$ 时无影响可以去掉 )

$=arg\: \underset{\theta }{min}\: \sum_{i=1}^{n}(W^{T}X_{i}-y_{i})^{2}$ (此时就得到了上述的损失函数)

ALWAYS_FANG

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
线性回归数学推导

线性回归的目标是确定一条直线，让所有样本点到这一条直线的距离之和最小。通过这一句话我们就可以自然而然地根据样本点列出目标函数现在我们有一组高维样本点（其中每一个x都是m维列向量）。我们设目标直线方程为 y = （这个等式里面全是单个数字没有向量）把这个方程写作向量的形式 y = （其中X是m+1维的列向量，W也是） (对于是在每一个n维样本点的首位补充了一个...
复制链接

扫一扫

专栏目录