回归分析是统计学中一种强大的工具,用于探究变量之间的关系,并基于此建立预测模型。
1.回归分析的目的
研究一个或多个自变量与因变量之间的依赖关系,并建立数学模型进行预测或因果推断,进而研究变量间的关系和强度。有些时候通过采集部分数据进行回归分析,我们就可以推算出在未采集数据的区间因变量的变化。
2.回归模型的类型
2.1 线性回归
适用于因变量是连续变量,且与自变量呈线性关系。
模型公式:
这个是多元一次方程,x 的数量就是自变量的数量。
参数估计:最小二乘法(OLS),最小化残差平方和:
其中 代表着观测值的实际结果,而
则是我们通过模型预测的结果。
最小化残差平方和(最小二乘法,Ordinary Least Squares, OLS)的目的是为了找到最优的模型参数,使得模型预测值与真实值的误差尽可能小。
2.2 逻辑回归
适用于因变量为二元分类变量(一种只包含两个互斥类别的分类变量,也称为二值变量或二元变量,如0/1)。
模型公式:通过sigmoid函数映射线性组合为概率:
Sigmoid函数(即Logistic函数)被广泛用于将线性模型的输出映射到概率区间 [0,1],确保输出的可解释性。
原因 | 解释 |
---|---|
概率压缩 | 将线性输出映射到 [0,1] , 符合概率定义 |
广义线性模型的理论基础 | 作为Logit逆函数,连接线性模型与伯努利分布 |
极大似然优化的数学便利性 | 交叉熵损失与梯度计算简单 |
导数易于计算 | |
权重可解释性 |
扩展其他两种函数:
函数 | 用途 | 输入 | 输出 | 关键特性 |
---|---|---|---|---|
ReLU | 隐藏层的激活函数 | 单个标量 | 0或保留原值(非线性) | 缓解梯度消失、计算高效、稀疏性 |
Softmax | 输出层的概率归一化 | 向量(多个标量) | 概率分布(和为1) | 多分类适配、交叉熵优化友好、可解释性强 |
参数估计:极大似然估计(MLE),通过迭代优化(如牛顿法)最大化似然函数,其主要作用是通过最大化似然函数来确定最能描述观测数据的模型参数。
MLE优势:
(1)一致性:当样本量趋于无穷时,MLE估计值依概率收敛于真实参数值。
(2)渐进正态性:在大样本下,MLE估计量服从正态分布,便于构建置信区间和假设检验。
(3)有效性:在无偏估计量中,MLE的方差达到Cramér-Rao下界,即具有最小方差。
当解析解不可得时,MLE通过梯度下降、牛顿法、EM算法等最大化似然函数。现代工具(如TensorFlow、PyTorch)支持直接优化似然函数,使MLE广泛应用如神经网络。
2.3 多元回归与多项式回归
多元回归:包含多个自变量的线性回归。
多项式回归:自变量包含高次项(如 ),用于捕捉非线性关系。
2.4 其他回归方法
(1)岭回归(Ridge) & Lasso回归:通过L2/L1正则化处理多重共线性和防止过拟合。
(2)分位数回归:估计因变量在不同分位数下的条件分布,对异常值更稳健。
(3)泊松回归:因变量为计数型变量(如事件发生次数)。
3. 回归问题分析步骤
(1)确定研究问题:明确自变量与因变量。
(2)数据清洗:处理缺失值、异常值。
(3)探索性分析:绘制散点图、计算相关系数。
(4)模型选择:根据变量类型选择线性、逻辑或其他回归。
(5)参数估计:使用OLS、MLE等方法求解。
(6)模型诊断:检验R²、残差、共线性等。
R²(决定系数):解释自变量对因变量变异的比例,范围0~1,越高越好。
:残差平方和
:总平方和
残差分析:检查残差是否随机分布(无趋势、异方差性)。
通过可视化(残差图、Q-Q图)和统计检验(Shapiro-Wilk、Durbin-Watson)判断是否符合假设。
(7)模型优化:添加/删除变量、尝试正则化。
(8)结果解释:分析系数符号、大小及统计显著性。
4. 应用场景
(1)经济学:预测GDP增长与失业率的关系。
(2)医学:研究吸烟对肺癌发病率的影响。
(3)机器学习:房价预测(线性回归)、用户流失预测(逻辑回归)。
常见的问题:
(1)混淆相关与因果:回归只能说明变量关联,不能证明因果关系。
(2)忽视模型假设:如线性、正态性、同方差性需验证。
(3)过拟合风险:盲目添加变量导致模型泛化能力下降。
回归分析通过数学建模量化变量间的关系,是数据分析的基础工具之一。能够帮助从数据中提取有价值的信息,支持科学决策与预测。