机器学习总结之----1.线性回归

最新推荐文章于 2023-12-05 11:58:41 发布

机智翔学长

最新推荐文章于 2023-12-05 11:58:41 发布

阅读量250

点赞数

分类专栏：机器学习文章标签：总结西瓜书机器学习

本文链接：https://blog.csdn.net/GreatXiang888/article/details/82993741

版权

机器学习专栏收录该内容

7 篇文章 5 订阅

订阅专栏

文章目录

基本形式
损失函数
最大似然估计
- 误差
- 推导
求解方法
- 方程法
- 梯度下降法

线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，运用十分广泛。

基本形式

一般线性模型表示:
$\widehat{y} =\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+...+\theta_{n}x_{n}$
其中， $x_{1}$ , $x_{2}$ 这些是 $x$ 的第1，2维属性(特征)，这里的 $x$ 只是一个列向量，和我们常见到的 $X$ 不同。 $X$ 是包含很多的 $x$ 的，有时 $x$ 为了加以区分，写作 $x^{(i)}$ 的形式,下面我们会用到。
$\theta_{0},\theta_{1},\theta_{2}$ 是对应特征的权重， $\theta_{0}$ 也可以看作是偏置。

写成向量形式：
$\widehat{y} = h_\theta(x) = \theta^{T}x$

损失函数

我们要用已知的数据来求解 $\theta$ 的值。
我们采用最小二乘法。
基于均方误差最小化来进行模型求解的方法称为“最小二乘法”
均方误差（mean-square error, MSE）是反映估计量与被估计量之间差异程度的一种度量。
$MSE(X,h_{\theta}) = \frac{1}{m}\sum_{i=1}^{m}(\theta^{T}x^{(i)}-y^{(i)})^{2}$
$x^{(i)}$ 就是 $X$ 的第i个列向量，或者说第i个数据， $X$ 一共有m个数据(m列)。

最大似然估计

最大似然估计线性回归，其实和最小二乘法有异曲同工之妙，我们接下来分析。

误差

真实值与预测的值是有误差的，我们用 $\varepsilon$ 表示误差，根据大数定理，每一个样本的误差 $\varepsilon^{(i)}$ 是独立同分布的，并且服从均值为 0 方差 $\sigma^{2}$ 的高斯分布。
所以，对每一个真是的样本，有：
$y^{(i)} = \theta^{T}x^{(i)}+\varepsilon^{(i)}$

推导

最大似然估计是利用已知的样本的结果，在使用某个模型的基础上，反推最有可能导致这样结果的模型参数值。
因为误差服从高斯分布，那么出现误差 $\varepsilon^{(i)}$ 的概率为：
$p(\varepsilon^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(\varepsilon^{(i)})^{2}}{2\sigma^{2}})$

其中，误差的概率 $p(\varepsilon^{(i)})$ ，就是在已知 $\theta$ 给定 $x^{(i)}$ 求得 $y^{(i)}$ 的概率。于是，把误差带入到上式，可得：
$p(y^{(i)}|x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^{2}}{2\sigma^{2}})$

对已发生的m个样本，出现的概率为：
$L(\theta) = \prod_{i=1}^{m} p(y^{(i)}|x^{(i)};\theta) = \prod_{i=1}^{m} \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^{2}}{2\sigma^{2}})$

两边取对数：
$logL(\theta) = log \prod_{i=1}^{m} \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^{2}}{2\sigma^{2}})$

$\sum_{i=1}^{m} log \frac{1}{\sqrt{2\pi}\sigma} - \frac{1}{\sigma^{2}}\cdot \frac{1}{2} \sum_{i=1}^{m} (y^{(i)}-\theta^{T}x^{(i)})^{2}$

要使出现的概率最大，也就是要使上面表达式的值最大，减号左边是一个定值，等价于得使得下面得表达式值最小：
$J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (y^{(i)}-\theta^{T}x^{(i)})^{2}$

现在我们看一下，其实就是最小二乘法。

求解方法

方程法

将损失函数写成矩阵形式：
$J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (y^{(i)}-\theta^{T}x^{(i)})^{2} = \frac{1}{2} (X\theta-Y)^{T} (X\theta-Y)$

$J(\theta)$ 对 $\theta$ 求偏导：
$\triangledown_{\theta} J(\theta) = \triangledown_{\theta} \left (\frac{1}{2} (X\theta-y)^{T} (X\theta-y) \right ) = \triangledown_{\theta} \left (\frac{1}{2} (\theta^{T}X^{T}-y^{T}) (X\theta-y) \right )$

$\triangledown_{\theta} \left (\frac{1}{2} (\theta^{T}X^{T} X\theta - \theta^{T}X^{T}y - y^{T}X\theta + y^{T}y) \right )$

$\frac{1}{2} \left ( 2X^{T} X \theta - X^{T}y - X^{T}y + 0 \right ) = X^{T} X \theta - X^{T}y$

令偏导为0，得：
$\theta = (X^{T}X)^{-1} X^{T}y$

trick：记忆方法
记住 $X\theta = y$ ，然后等式两边在左同时乘上 $X^{T}$ ，得到 $X^{T} X \theta = X^{T} y$ ，再把左边得因子移到右边，得 $\theta = (X^{T}X)^{-1} X^{T}y$

上面用到了一些矩阵求导公式，摘要一些用到的：
$\frac{d B^{T} A B}{d B} = 2AB$

$\frac{d A^{T}B}{d A} = B$

$\frac{d AB}{d B} = A^{T}$

其他可以参考常用的向量矩阵求导公式

梯度下降法

在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。

梯度下降基本算法为：首先用随机值填充 $\theta$ （初始化），然后逐步改进，目的是降低代价函数，直到算法收敛到最小或者达到指定步数为止。
$\theta := \theta - \alpha \cdot \bigtriangledown_{\theta}J(\theta)$

其中 $\alpha$ 为学习率， $\theta$ 是我们想要求得参数。

常见得几种梯度下降：

批量梯度下降(BGD)
优点：得到全局最优解；易于并行实现；
缺点：当样本数目很多时，训练过程会很慢。
随机梯度下降(SGD)
优点：训练速度快；
缺点：准确度下降，并不是全局最优；不易于并行实现。
小批量梯度下降(MBGD)
结合SGD和BGD，是一种比较好得方法。

本文参考：
线性回归 - 爖

其他资料:
latex在线编辑
 latex中文说明书

机智翔学长

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习总结之----1.线性回归

文章目录基本形式损失函数最大似然估计误差推导求解方法方程法梯度下降法线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，运用十分广泛。基本形式一般线性模型表示:y^=θ0+θ1x1+θ2x2+...+θnxn\widehat{y} =\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+...+\theta_{n...
复制链接

扫一扫