回归分析学习

lov_vol

已于 2023-08-06 15:31:56 修改

阅读量454

点赞数

分类专栏：机器学习文章标签：回归学习数据挖掘

于 2023-08-02 22:50:04 首次发布

本文链接：https://blog.csdn.net/lov_vol/article/details/132071355

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

回归分析

什么是回归分析
简单线性回归
损失函数(loss function)
- 最小二乘法(Least Square, LS)
- 梯度下降法（Gradient Descent，GD）
多元线性回归(multiple Linear Regression)
相关系数与决定系数
- 线性回归的相关系数
- 线性回归的决定系数(coefficient of determination)
总结

什么是回归分析

Regression
回归分析是描述变量间关系的一种统计分析方法
例：在线教育场景
- 因变量Y：在线学习课程满意度（通常是一些预测或真实值）00000000000000000
- 自变量X：平台交互性、教学资源、课程设计(通常是一些特征）
前面提到过西洋跳棋系统目标函数的设计也是一个回归问题
预测性的建模技术，通常用于预测分析
预测的结果多为连续值（但也可以是离散值，甚至是二值）

简单线性回归

线性回归（linear regression）

因变量和自变量之间是线性关系，就可以用线性回归来建模

在这里插入图片描述

线性回归的目的即找到最能匹配（解释）数据的截距和斜率

线性假设

线性：有些变量间的线性关系是确定性的
线性：然而通常情况下，变量间是近似的线性关系
如下图：

这些点不是线性的，为什么还要进行线性的拟合

可能本来是线性的，但是有噪声的扰动，就不是纯线性的
确实不是线性的，也不知道背后的规律，但是用线性拟合还不错

如何拟合数据

假设只有一个因变量和自变量，每个训练样例表示 $x_i, y_i)$
用 $\hat y_i$ 表示根据拟合直线和 $x_i$ 对 $y_i$ 的预测值
$\hat y_i= b_1 + b_2 x_i$
b₁是截距，b₂是斜率
定义 $e_i = y_i - \hat y_i$ 为误差项，也叫残差 $\epsilon$

在这里插入图片描述

目标：得到一条直线使得对于所有训练样例的误差项尽可能小
- (本来是对于所有实例空间，但很难达成，所以就变成是所有训练样例）

线性回归的基本假设

自变量与因变量间存在线性关系;
数据点之间独立; （相互独立，如y1和y2项户独立，y1和y3相互独立，y1和y3相互独立）
自变量之间无共线性，也就是自变量相互独立; （特征是相互独立，如天气和带东西是相互独立，但是天气和带伞不是相互独立的，不建议用）
残差（误差项）独立,等方差,且符合正态分布（参考机器学习原则和方法的极限中心定理，）。
- iid（独立同分布得到的数据，如果足够多的话，不管背后是什么分布，叠加后的平均向量（值）也是服从正态分布的），对于同一个问题的误差，我们可以认为是同源的，如果每个误差是独立来的，噪声足够多的话，那我们可以认为是误差平均向量符合正态分布的，中心极限定理。
- 独立一般是机器学习数据的基本要求

损失函数(loss function)

多种损失函数都是可行的，凭直觉就可以想到：
- 所有误差项的加和 $\sum_{i=1}^{n} e_i = \sum_{i=1}^{n}(y_i-\hat y_i)$
- 所有误差项绝对值的加和 $\sum_{i=1}^{n}|e_i| = \sum_{i=1}^{n}|(y_i - \hat y_i)|$
考虑到优化等问题，最常用的是基于误差平方和的损失函数
$\underset{b_1,b_2}{min}: \sum_{i=1}^{n} e^2_i = \sum_{i=1}^{n}(y_i-\hat y_i)^2 = \sum_{i=1}^{n}(y_i-b_1-b_2x_i)^2$
使用平方和，会把误差缩放，比如 $3^2=9, 0.1^2=0.01$ , 我们一般认为损失大，影响就大，损失小影响就小。

最小二乘法(Least Square, LS)

为了求解最优的截距和斜率，可以转化为一个针对损失函数的
凸优化问题，称为最小二乘法
$\frac{\partial \sum_{i=1}^{n} e^2_i}{\partial b_1} = -2\sum_{i=1}^{n}(y_i-b_1-b_2x_i) = 0\ \ \ \ \ \ \ (1)$
$\frac{\partial \sum_{i=1}^{n} e^2_i}{\partial b_2} = -2\sum_{i=1}^{n}x_i(y_i-b_1-b_2x_i) = 0\ \ \ (2)$
求解得到：
$b_2 = \frac{\sum_{i=1}^{n}(x_i-\overline x)(y_i-\overline y)}{\sum_{i=1}^{n}(x_i-\overline x)^2}$
$b_1 = \bar y - b_2\bar x$
$\bar x和\bar y$ 分别表示自变量和因变量的均值

梯度下降法（Gradient Descent，GD）

除了最小二乘法，还可以用基于梯度的方法迭代更新截距和斜率
• 梯度下降法
- 初始化 $b_1,b_2$
  - （可以随机，随机不同的值，梯度下降不一样）
  - 基于b₁,b₂就可以预测出 $\hat y_i$ , 和真实值y_i就可以算出残差（或残差绝对值、平方和）
- 重复：
  - $b_1 = b_1 − \alpha$
  - $b_2 = b_2 − \alpha$
    - 基于残差更新b₁,b₂, $\alpha$ 就是更新项
    - 对比LS：
      - $\frac{\partial \sum_{i=1}^{n} e^2_i}{\partial b_1}$
      - $\frac{\partial \sum_{i=1}^{n} e^2_i}{\partial b_2}$
  - 有了新的b₁,b₂，就可以预测出新的 $\hat y$ ，计算新的误差项进行更新

回忆西洋跳棋系统设计：
$w_i \leftarrow w_i + c * f_i * error(b)$
$w_i$ 就是上面的 $b_1$ ,c就是很小的常数项，如0.1, $f_i$ 是第i个数据的特征取值，error(b)就是残差，这里的残差就是本来的，有正有负，来回调整，调整的越来越小

梯度下降法也是找的局部最优

多元线性回归(multiple Linear Regression)

• 当因变量有多个时，我们可以用矩阵方式表达

其实此时： $y_i=\beta_0 + \beta_1+x_{i2} + \beta_3x_{i3}+....+ \beta_kx_{ik} + \epsilon_i$
此时的误差项 $\begin{bmatrix} e_1\\ e_2 \\ \vdots\\ e_n \end{bmatrix} =y-X\beta$
损失函数 $\sum_{i=1}^{n} e^2_i = e'e\ \ \ \ \ \ e'表示转置(线性代数)$
求解 $\frac{\partial e'e}{\partial \beta} = -2X'Y + 2X'X\beta$
得到 $\beta = (X'X)^{-1}X'Y$

$2X'X\beta = 2X'Y$
$X'X\beta=X'Y$
$(X'X)^{-1}X'X\beta = (X'X)^{-1}X'Y$
$\beta = (X'X)^{-1}X'Y$
并不是所有的矩阵都有逆矩阵，所以这里，多元线性回归只有（X‘X）有逆矩阵才可以进行误差项矩阵操作

多元线性回归参数估计的推导(法二）

$\sum_{i=1}^{n} e^2_i = \sum_{i=1}^{n}(y_i - \beta_0 - \beta_1x_{x1} - ... - \beta_px_{ik})^2$
对每一个需要估计的参数 $\beta_i$ 求偏导:
$\sum(y_i - \beta_0 - \beta_1x_{x1} - ... - \beta_kx_{ik}) = 0$
$\sum(y_i - \beta_0 - \beta_1x_{x1} - ... - \beta_kx_{ik}) x_{i1}= 0$
…
$\sum(y_i - \beta_0 - \beta_1x_{x1} - ... - \beta_kx_{ik}) x_{ik}= 0$

$(y-X\beta)^TX = 0$
$y^TX = \beta^TX^TX \ \ \ \ \ \rightarrow \ \ \ \ \ X^Ty = X^TX\beta\ \ \ \ \ \rightarrow \ \ \ \ beta=(X^TX)^{-1}X^Ty$

实例：家庭花销预测

记录了 25 个家庭每年在快销品和日常服务上
- 总开销（𝑌）
- 每年固定收入（ 𝑋₂）、持有的流动资产（ 𝑋₃）
可以构建如下线性回归模型
$y_i = \beta_1 + \beta_2x_{i2} + \beta_3x_{i3} + \epsilon_i; \ \ \ \ \ i=1,...,25$

在这里插入图片描述

最终的预测模型为
$\hat y_i = 36.79 + 0.3318x{i2} + 0.1258x_{i3}$
如果一个家庭每年固定收入为 50K$、持有流动资产 100K$，则
预计一年将会花费
$\hat y_i = 36.79 + 0.3318(50) + 0.1258(100) = 65.96K$ $

以“误差平方和”为损失函数的优缺点

用误差平方和作为损失函数有很多优点
- 损失函数是严格的凸函数，有唯一解
- 求解过程简单且容易计算
同时也伴随着一些缺点
- 结果对数据中的“离群点”(outlier)非常敏感
  - 解决方法：提前检测离群点并去除
- 损失函数对于超过和低于真实值的预测是等价的
  - 但有些真实情况下二者带来的影响是不同的

使用线性回归方法，一般看两点：

是否满足线性回归的假设，如线性、独立
线性回归的不足对实验影响程度，影响大则不能使用

总结

回归分析：描述变量间关系的统计分析方法
线性回归：最常用，基本假设
基于误差平方和的损失函数
- 最小二乘法
- 梯度下降法
扩展到多元线性回归
相关系数与决定系数：相关 ≠ 因果

lov_vol

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
回归分析学习

Regression回归分析是描述变量间关系的一种统计分析方法例：在线教育场景因变量Y：在线学习课程满意度自变量X：平台交互性、教学资源、课程设计前面提到过西洋跳棋系统目标函数的设计也是一个回归问题预测性的建模技术，通常用于预测分析预测的结果多为连续值（但也可以是离散值，甚至是二值）回归分析：描述变量间关系的统计分析方法线性回归：最常用，基本假设基于误差平方和的损失函数最小二乘法梯度下降法扩展到多元线性回归相关系数与决定系数：相关 ≠ 因果。
复制链接

扫一扫