机器学习——线性回归（Linear Regression）

最新推荐文章于 2023-10-05 12:01:45 发布

皓皓家的

最新推荐文章于 2023-10-05 12:01:45 发布

阅读量131

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_37861936/article/details/103417993

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

1、从一个例子来了解线性回归

数据：工资和年龄
目标：预测银行贷款额度
考虑：工资和年龄对银行贷款额度的影响程度

工资	年龄	贷款额度
4000	25	20000
8000	30	70000
5000	28	35000
7500	33	50000
12000	40	85000

自变量(特征)：工资(X1)、年龄(X2)
因变量：贷款额度(y)
假设 $\theta_1$ 是工资参数， $\theta_2$ 是年龄参数，
则该例子中回归方程为： $h_\theta(x) =\theta_0 + \theta_1x_1 +\theta_2x_2$

2、线性回归算法详解（Linear Regression）

对于每个样本,输出值是各特征的线性组合：
$h_\theta(x) =\theta_0 + \theta_1x_1 +\theta_2x_2+\cdots+\theta_nx_n$
$h_\theta(x) = \displaystyle\sum_{i=1}^n\theta_ix_i=\theta^Tx$ (其中 $\theta_0$ 是偏置项)

假设样本数量为m,每个样本包含n个特征，则输入数据为一个m*n的矩阵。
$\theta$ :表示各个特征的权重
$x^{(i)}$ :表示第 $i$ 行所有的 $x$
$h_\theta(x^{(i)})$ :表示第 $i$ 行所有的 $x$ 乘以 $\theta$ 后的取值
$y^{(i)}$ :表示第 $i$ 行对应的真实的 $y$ 值

误差

真实值与预测值之间的误差用 $\varepsilon$ 表示，对于每个样本，有
$y^{(i)} = \theta^Tx^{(i)} + \varepsilon^{(i)}$
误差 $\varepsilon^{(i)}$ 服从均值为0方差为 $\sigma^2$ 的高斯分布

似然函数

高斯分布函数密度曲线可以表示为：
$\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ ( $\mu$ :均值 $\sigma$ :标准差)
则有误差服从高斯分布：
$p(\varepsilon^{(i)})=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(\varepsilon^{(i)})^2}{2\sigma^2}}$
将误差公式代入，则有
$p(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}}$
似然函数： $L(\theta)=\displaystyle\prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta)=\displaystyle\prod_{i=1}^m\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}}$
似然函数解释：什么样的参数组合 $\theta^T$ 能够使得数据的预测值恰好是真实值的概率最大

似然函数公式化简

由于似然函数包含累乘算术，将累乘变成累加有利于计算
根据 $l o g (A * B) = l o g A + l o g B$ 则有
对数似然函数：
$logL(\theta)=log\displaystyle\prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta)=log\displaystyle\prod_{i=1}^m\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}}$
展开化简：
$\displaystyle\sum_{i=1}^mlog(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}})$
$=mlog\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{\sigma^2}.\frac{1}{2}\displaystyle\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2)$
目标：让似然函数（对数似然函数）值越大越好,因此目标函数 $J(\theta)$ 的值要越小越好

目标函数

$J(\theta)=\frac{1}{2}\displaystyle\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2)$
$J(\theta)=\frac{1}{2}\displaystyle\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2)$
$=\frac{1}{2}\displaystyle\sum_{i=1}^m(y^{(i)}-h_\theta(x^{(i)}))^2$
$=\frac{1}{2}(X\theta-y)^T(X\theta-y)$

对 $J(\theta)$ 求偏导，令偏导为0，得 $\theta=(X^TX)^{-1}X^Ty$

评估方法

最常用的评估项 $R^2$ :
$R^2=1-\frac{\displaystyle\sum_{i=1}^m(\hat{y_i}-y_i)^2}{\displaystyle\sum_{i=1}^m(y_i-\bar{y})^2}$
残差平方和： $\displaystyle\sum_{i=1}^m(\hat{y_i}-y_i)^2$
方差： $\displaystyle\sum_{i=1}^m(y_i-\bar{y})^2$
当 $R^2$ 越接近1，我们认为模型拟合效果越好

3、梯度下降

当引入了目标函数 $J(\theta)$ 之后，如何进行求解，不是每次都可以直接求解的（线性回归可直接求目标函数的偏导为0是特例）
梯度下降是一种寻找目标函数最小化的方法。
目标函数为：
$J(\theta)=\frac{1}{2}\displaystyle\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2)$
$\theta_i = \theta_i - \alpha\frac{\partial}{ \partial\theta_i}J(\theta)$
$\alpha$ :学习率，会对结果产生很大影响，一般设置较小

图片来源于：https://www.jianshu.com/p/93d9fea7f4c2

从数学的角度看，梯度的方向是函数增长最快的方向，梯度的反方向就是函数减小最快的方向。
越接近最优解的时候，步长越小。因为这个向量等于 $\alpha_i$ 与偏导数的乘积，虽然 $\alpha_i$ 始终是一个定值，但是越接近最值的时候，这个坡度就会越缓，从而导数的值就越小，也就是乘积变小了，这就是看到步长变小的缘故。

批量梯度下降

每次都考虑所有的样本，容易得到最优解，但是速度慢
随机梯度下降

每次随机找一个样本，迭代速度快，但不一定每次都朝着收敛的方向
小批量梯度下降

每次更新选择一小部分数据来计算，较为实用！

皓皓家的

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习——线性回归（Linear Regression）

从一个例子了解线性回归数据：工资和年龄目标：预测银行会贷款多少钱工资年龄贷款额度40002520000800030700005000283500075003350000120004085000自变量(特征)：工资(X1)、年龄(X2)因变量：贷款额度(y)假设θ1\theta_1θ1是年龄参数，θ2\theta_2...
复制链接

扫一扫

专栏目录