【机器学习】线性回归——数学原理推导

最新推荐文章于 2022-09-12 22:22:25 发布

goldlone

最新推荐文章于 2022-09-12 22:22:25 发布

阅读量596

点赞数 1

分类专栏：机器学习文章标签：线性回归

本文链接：https://blog.csdn.net/goldlone/article/details/83095957

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1. 定义

$\theta_0 + \theta_1x_1 + \theta_2x_2 + ... + \theta_nx_n$

2. 误差函数

$y^{(i)} = \theta^Tx^{(i)} + \epsilon ^{(i)}$

$y^{(i)}$ ：真实值
$\epsilon^{(i)}$ ：误差值

这里我们假定误差 $\epsilon^{(i)}$ 是独立且同分布的，服从期望为0，方差为 $\sigma^2$ 的高斯分布。（根据中心极限定理得出：在特定条件下，大量统计独立的随机变量的和的分布趋于正态分布，这就是中心极限定理）

$p(\epsilon^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(\epsilon^{(i)})^2}{2\sigma^2}}$

将上式带入可得：

$p(y^{(i)}|x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}}$

3. 极大似然估计

似然函数：

$L(\theta) = \prod_{i=1}^{m}{p(y^{(i)}|x^{(i)};\theta)} = \prod_{i=1}^{m}{\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}}}$

将连乘转换为累加，转换为对数似然函数：

$\ln{L(\theta)} = \ln{\prod_{i=1}^{m}{\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}}}}$

化简：

$\quad\sum_{i=1}^{m}{\ln{\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}}}}$

$=m\ln{\frac{1}{\sqrt{2\pi}\sigma}} - \frac{1}{2\sigma^2}\sum_{i=1}^{m}{(y^{(i)}-\theta^Tx^{(i)})^2}$

由于m, $\sigma$ 是常数，可以得出目标（损失）函数如下：

$\quad J(\theta) = \frac{1}{2}\sum_{i=1}^{m}{(\theta ^T x^{i} - y^{i})^2}$

$=\frac{1}{2}(X\theta - y)^2$

$=\frac{1}{2}(X\theta - y)^T(X\theta - y)$

该损失函数也称为最小二乘法

我们期望似然函数的值越大越好（因为根据高斯分布，越靠近期望的位置其函数值越大，而我们代入的标准高斯分布其均值为0，这意味着越靠近均值，误差值越小），即损失函数的值越小越好（从推导过程可以得出似然函数与损失函数成负相关）

4. 计算参数

$\nabla_\theta J(\theta) = \nabla_\theta[\frac{1}{2}(\theta^TX^T - y^T)(X\theta - y)]$

$\quad=\nabla_\theta[\frac{1}{2}(\theta^TX^TX\theta-y^TX\theta-\theta^TX^Ty+y^Ty)]$

$\quad=\frac{1}{2}(X^TX\theta+\theta^TX^TX-(y^TX)^T-X^Ty)$

$\quad=\frac{1}{2}(2X^TX\theta-2X^Ty)$

$\quad=X^TX\theta-X^Ty$

令 $\nabla_\theta J(\theta)=0$ 可得：
$\theta = (X^TX)^{-1}(X^Ty)$

即当 $\theta = (X^TX)^{-1}(X^Ty)$ 时，损失函数取最小值，似然函数得最大值

注： $\theta^TX^TX$ 在转换为 $X^TX\theta$ 时，由于 $X^TX$ 是方阵，所以可以移动 $\theta^T$ ，将 $X^TX$ 看成一个整体，将 $\theta^T$ 向后移动，并需要进行转置

5. 正则化

为了避免模型过拟合，一般在目标（损失）函数后添加惩罚因子（正则项）。根据使用正则化的方式不同添加不用的惩罚因子

L1正则：

$J(\theta) = \frac{1}{2}\sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)}) + \lambda\sum_{j=0}^{n}|\theta_j|$

L2正则：

$J(\theta) = \frac{1}{2}\sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)}) + \lambda\sum_{j=0}^{n}(\theta_j)^2$

goldlone

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【机器学习】线性回归——数学原理推导

1. 定义y=θ0+θ1x1+θ2x2+...+θnxn y = \theta_0 + \theta_1x_1 + \theta_2x_2 + ... + \theta_nx_n y=θ0+θ1x1+θ2x2+...+θnxn2. 误差函数y(i)=θTx(i)+ϵ(i) y^{(i)} = \theta^Tx^{(i)} + \epsilon ^{(i)} y(i)=θTx(...
复制链接

扫一扫