回归分析（Regression Analysis）详解

YRr YRr

于 2024-10-24 18:55:19 发布

阅读量2k

点赞数 21

分类专栏：深度学习文章标签： 1024程序员节

本文链接：https://blog.csdn.net/m0_73640344/article/details/143216830

版权

99 篇文章

订阅专栏

回归分析是统计学中用于估计两个或多个变量之间关系的一种方法。在机器学习领域，回归用于预测一个或多个自变量（解释变量）与一个连续的因变量（响应变量）之间的关系。回归模型的目的是找到最适合观测数据的模型，以便可以准确预测未知数据点的因变量值。

线性回归（Linear Regression）:
- 简介：最基本的回归形式，假设因变量与自变量之间存在线性关系。模型形式通常为 ( $\beta_0 + \beta_1x_1 + \cdots + \beta_nx_n + \epsilon$ )，其中 (y) 是因变量，( $x_1, \dots, x_n$ ) 是自变量，( $\beta_0, \beta_1, \dots, \beta_n$ ) 是模型参数，( $\epsilon$ ) 是误差项。
- 用途：广泛用于需要预测输出为连续数值的应用，例如房价预测、股票价格分析等。
多项式回归（Polynomial Regression）:
- 简介：线性回归的一个变体，允许自变量的高次项。这使得模型可以拟合数据中的非线性趋势。
- 公式：( $\beta_0 + \beta_1x + \beta_2x^2 + \cdots + \beta_nx^n + \epsilon$ )。
逻辑回归（Logistic Regression）:
- 简介：虽然名称中包含“回归”，但逻辑回归是用于分类问题，特别是二分类问题。模型输出的是属于某类的概率。
- 公式：( $\frac{1}{1 + e^{-(\beta_0 + \beta_1x_1 + \cdots + \beta_nx_n)}}$ )，其中 (p) 是类别1的概率。
岭回归（Ridge Regression） 和 Lasso回归（Lasso Regression）:
- 简介：这两种回归技术通过引入正则化项来处理特征多重共线性问题或数据点较少的情况，以减少过拟合。
- 岭回归：在损失函数中添加L2范数正则项。
- Lasso回归：在损失函数中添加L1范数正则项，有助于进行特征选择。

均方误差（MSE, Mean Squared Error）：
[
$\frac{1}{n}\sum_{i=1}^n(y_i - \hat{y}_i)^2$
]
其中 ( $y_i$ ) 是观测值，( $\hat{y}_i$ ) 是预测值。
均方根误差（RMSE, Root Mean Squared Error）：
[
$\sqrt{MSE}$
]
提供了误差的平均大小。
确定系数（(R^2) Score）：
[
$R^2 = 1 - \frac{\sum_{i=1}^n(y_i - \hat{y}_i)^2}{\sum_{i=1}^n(y_i - \bar{y})^2}$
]
衡量模型解释的变异量，( $\bar{y}$ ) 是 ( $y_i$ ) 的平均值。