线性回归算法数学基本推导

最新推荐文章于 2022-09-12 22:22:25 发布

e咩咩

最新推荐文章于 2022-09-12 22:22:25 发布

阅读量177

点赞数

分类专栏：机器学习基础推导&简单应用文章标签：机器学习算法

本文链接：https://blog.csdn.net/weixin_42494663/article/details/108066376

版权

机器学习基础推导&简单应用专栏收录该内容

1 篇文章 0 订阅

订阅专栏

基本数学原理

通过数据来预测一个值便可以应用回归算法。数据可以含有多个特征，想要预测的目标即为标签。每个特征对标签的影响程度即位参数。

$h_{\theta}(x)=\sum_{i=0}^{n} \theta_{i} x_{i}=\theta^{T} x ，其中\theta_0为偏置项，x_0 = 1$

在回归的拟合过程中，真实值与预测值之间会存在误差。

$y^{(i)}=\theta^{T} x^{(i)}+\varepsilon^{(i)}$ , $其中y^{(i)}为真实值， \theta^{T} x^{(i)}为预测值，\varepsilon^{(i)}为误差值。$

$误差\varepsilon^{(i)}是独立同分布，并且服从均值为0方差为\theta^2的高斯分布$

由于误差项服从高斯分布，我们可得下式：

$p\left(\epsilon^{(i)}\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(\epsilon^{(i)}\right)^{2}}{2 \sigma^{2}}\right)$

将误差项与真实值以及预测值的关系带入右侧可得：

$p\left(y^{(i)} | x^{(i)} ; \theta\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right)$

此式中我们应用真实值与预测值来展现误差的分布

似然函数求解

似然函数：

在不知道数据的规则时，去寻找什么样的参数跟我们的数据组合后恰好是真实值或是真实值的可能性越大越好，即通过数据去回推参数（规则）。

$L(\theta)=\prod_{i=1}^{m} p\left(y^{(i)} | x^{(i)} ; \theta\right)=\prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right)$

极大似然估计即为估计参数使得我们的数据与参数组合后得到真实值的可能性最大的似然估计

对数似然函数：

$\log L(\theta)=\log \prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right)$

通过对数似然函数，我们可以将似然函数中的累乘转换为累加，以获得计算量上的减少。

对对数似然函数进行化简我们可以得到：

$=\sum_{i=1}^{m} \log \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right)$

$\log \frac{1}{\sqrt{2 \pi} \sigma}-\frac{1}{\sigma^{2}} \cdot \frac{1}{2} \sum_{i=1}^{m}\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}$

由上式我们可以得到，似然函数的最终值大小仅与

$\sum_{i=1}^{m}\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}$

有关，所以为了让似然函数得到最大值，此部分需要取最小值。由此我们可以得到目标函数即为：

$目标函数J(\theta)即为： J(\theta)=\frac{1}{2} \sum_{i=1}^{m}\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}$

此式子即为最小二乘法。

线性回归求解

对最小二乘法式子进行矩阵分解

$J(\theta)=\frac{1}{2} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}=\frac{1}{2}(X \theta-y)^{T}(X \theta-y)$

对上式求偏导可得

$\nabla_{\theta} J(\theta)=\nabla_{\theta}\left(\frac{1}{2}(X \theta-y)^{T}(X \theta-y)\right)=\nabla_{\theta}\left(\frac{1}{2}\left(\theta^{T} X^{T}-y^{T}\right)(X \theta-y)\right)$

$=\nabla_{\theta}\left(\frac{1}{2}\left(\theta^{T} X^{T} X \theta-\theta^{T} X^{T} y-y^{T} X \theta+y^{T} y\right)\right)$

$=\frac{1}{2}\left(2 X^{T} X \theta-X^{T} y-\left(y^{T} X\right)^{T}\right)=X^{T} X \theta-X^{T} y$

由于机器学习中，我们通常默认函数为凸函数，所以偏导数的求导结果对应的即为最小值点

$\theta=\left(X^{T} X\right)^{-1} X^{T} y$

很多时候，参数θ没法直接进行求解，此时我们需要应用其他方法进行求优化。同时，当矩阵X不具有可逆性时，也无法进行求解。

最常用的评估项为残差平方和/类似方差项

$R^{2}: 1-\frac{\sum_{i=1}^{m}\left(\hat{y}_{i}-y_{i}\right)^{2}}{\sum_{i=1}^{m}\left(y_{i}-\bar{y}\right)^{2}}$

越接近1，说明拟合效果越好。

e咩咩

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
线性回归算法数学基本推导

基本数学原理通过数据来预测一个值便可以应用回归算法。数据可以含有多个特征，想要预测的目标即为标签。每个特征对标签的影响程度即位参数。hθ(x)=∑i=0nθixi=θTx，其中θ0为偏置项，x0=1h_{\theta}(x)=\sum_{i=0}^{n} \theta_{i} x_{i}=\theta^{T} x，其中\theta_0为偏置项，x_0 = 1hθ(x)=∑i=0nθixi=θTx，其中θ0为偏置项，x0=1在回归的拟合过程中，真实值与预测值之间会存在误差。y(i)=θT
复制链接

扫一扫

专栏目录