线性回归·最小二乘法·梯度下降【知识整理】

最新推荐文章于 2023-01-02 10:58:14 发布

暴躁的茬

最新推荐文章于 2023-01-02 10:58:14 发布

阅读量528

点赞数

分类专栏：数据分析

本文链接：https://blog.csdn.net/Droke_Zhou/article/details/87895070

版权

16 篇文章 9 订阅

订阅专栏

综述

学生党整理一些关于数据分析的知识：线性回归最小二乘法的介绍，误差评估及梯度下降等分析原理。

以银行贷款为案例背景介绍：

在这里插入图片描述
假设： $\theta_1$ 是年龄参数， $\theta_2$ 是工资参数

真实值合预测值之间一定会存在差异（用 $\varepsilon$ 表述误差）

误差 $\varepsilon^i$ 是独立并且有相同的分布，并且服从 $\mu$ 为0， $\sigma^2$ 为 $\theta^2$ 的高斯分布（正态分布）。

思路：误差项用实际值和预测值的差代替，得到不含误差变量的函数，函数表示预测值成为实际值的可能性。

预测值与误差： $y^i=\theta^Tx^i+\varepsilon^i$
由于误差服从高斯分布： $p(\varepsilon^i)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(\varepsilon^i)^2}{2\sigma^2}}$
结合上面两个式子：
$p(y^i|x^i;\theta)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^i-\theta^Tx^i)^2}{2\sigma^2}}$

方法：似然函数求解

似然函数： $L(\theta)=\prod_{i=1}^{m}p(y^i|x^i;\theta)=\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^i-\theta^Tx^i)^2}{2\sigma^2}}$
取对数： $logL(\theta)=log\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^i-\theta^Tx^i)^2}{2\sigma^2}}$
展开化简： $\sum_{i=1}^{m}log\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^i-\theta^Tx^i)^2}{2\sigma^2}}=mlog\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{2\sigma^2}\sum_{i=1}^{m}(y^i-\theta^Tx^i)^2$
目标：让似然函数越大越好，即目标函数越小，得出的函数拟合度越好 $J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(y^i-\theta^Tx^i)^2\quad(最小二乘法)$

偏导求解最小值：

目标函数： $J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(h_\theta(x^i)-y^i)^2=\frac{1}{2}(X\theta-y)^T(X\theta-y))$
求偏导： $\nabla_\theta J(\theta)=\nabla_\theta(\frac{1}{2}(X\theta-y)^T(X\theta-y)))=X^TX\theta-X^Ty$
令偏导等于 0 即可得到拟合度最好的函数系数 $\theta =(X^TX)^{-1}X^Ty$

最常用的评估项 $R^2$ ： $1-\dfrac{\sum_{i = 1}^{m}(\hat{y_i}-y_i)^2}{\sum_{i = 1}^{m}(y_i- \overline{y})^2}\qquad\dfrac{(残差平方和)}{(类似方差项)}$
$R^2$ 的取值越接近于 1 认为模型的拟合度越好

当我们得到一个目标函数后，直接求解可能并不可行（线性回归可以当做一个特例），机器学习就是将一推数据交给机器，然后指定学习方向（目标函数），让它朝着这个方向去做。
在这里插入图片描述

目标函数： $J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(h_\theta(x^i)-y^i)^2$

批量梯度下降（BGD）： $\frac{\partial J(\theta)}{\partial{\theta_j}}=-\frac{1}{m}\sum_{i=1}^{m}(y^i-h_\theta(x^i))x^i_j\qquad\theta_j'=\theta_j+\frac{1}{m}\sum_{i=1}^{m}(y^i-h_\theta(x^i))x^i_j$
（容易得到最优解，但是由于每次考虑所有样本，速度很慢）
随机梯度下降（SGD）： $\theta_j'=\theta_j+(y^i-h_\theta(x^i))x^i_j$ （每次找一个样本，迭代速度快，但不一定每次都朝着收敛的方向）
小批量梯度下降法（MBGD）： $\theta_j:=\theta_j-\alpha\frac{1}{10}\sum_{k=i}^{i+9}(h_\theta(x^k)-y^k)x^k_j$ （每次更新选择一部分数据来算，实用！）