文章目录
一、前言
线性回归是统计学中一种预测数值型数据的方法。在机器学习和数据分析领域,线性回归通常用于预测一个或多个自变量(predictor variables)和因变量(response variable)之间的关系。本文将详细介绍线性回归的数学原理和其通过最小二乘法的求解过程。
二、线性模型的定义
线性回归模型假设因变量
y
y
y 和自变量
x
x
x 之间存在线性关系,可以通过一个线性方程来描述:
h
θ
(
x
)
=
θ
T
x
h_\theta(x) = \theta^T x
hθ(x)=θTx
其中,
θ
\theta
θ 代表模型的参数,
x
x
x 是特征向量。
三、模型的假设与误差的详细推导
在实际的数据分析中,模型的预测值与真实值之间通常会存在误差。为了建模这种误差,并进行合理的统计推断,通常假设误差项 ε ( i ) \varepsilon^{(i)} ε(i) 遵循某种概率分布。在线性回归模型中,最常见的假设是误差项遵循独立同分布的正态分布。
误差项的假设
假设对于所有的
i
i
i,误差
ε
(
i
)
\varepsilon^{(i)}
ε(i) 独立且服从均值为0、方差为
σ
2
\sigma^2
σ2 的正态分布。这可以数学上表示为:
ε
(
i
)
∼
N
(
0
,
σ
2
)
\varepsilon^{(i)} \sim N(0, \sigma^2)
ε(i)∼N(0,σ2)
这意味着误差项的概率密度函数(PDF)为:
p
(
ε
(
i
)
)
=
1
2
π
σ
2
exp
(
−
(
ε
(
i
)
)
2
2
σ
2
)
p(\varepsilon^{(i)}) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(\varepsilon^{(i)})^2}{2\sigma^2}\right)
p(ε(i))=2πσ21exp(−2σ2(ε(i))2)
模型的表示
在给定模型参数
θ
\theta
θ 和自变量
x
(
i
)
x^{(i)}
x(i) 的条件下,响应变量
y
(
i
)
y^{(i)}
y(i) 的表达式为:
y
(
i
)
=
θ
T
x
(
i
)
+
ε
(
i
)
y^{(i)} = \theta^T x^{(i)} + \varepsilon^{(i)}
y(i)=θTx(i)+ε(i)
根据误差项的分布假设,我们可以推导出给定
x
(
i
)
x^{(i)}
x(i) 时
y
(
i
)
y^{(i)}
y(i) 的条件概率密度函数:
y
(
i
)
∣
x
(
i
)
;
θ
∼
N
(
θ
T
x
(
i
)
,
σ
2
)
y^{(i)} \mid x^{(i)}; \theta \sim N(\theta^T x^{(i)}, \sigma^2)
y(i)∣x(i);θ∼N(θTx(i),σ2)
因此,
y
(
i
)
y^{(i)}
y(i) 的条件概率密度函数为:
p
(
y
(
i
)
∣
x
(
i
)
;
θ
)
=
1
2
π
σ
2
exp
(
−
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
2
σ
2
)
p(y^{(i)} \mid x^{(i)}; \theta) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y^{(i)} - \theta^T x^{(i)})^2}{2\sigma^2}\right)
p(y(i)∣x(i);θ)=2πσ21exp(−2σ2(y(i)−θTx(i))2)
误差分布的重要性
这种假设不仅简化了模型的数学处理,还允许我们使用最小二乘法来估计参数 θ \theta θ,因为最小二乘法估计在正态误差分布的假设下是最佳线性无偏估计(BLUE)。此外,正态分布假设还支持进行各种统计推断,如置信区间和假设检验。
通过以上推导,我们看到模型的假设对于参数估计和统计分析的正确性是至关重要的。误差分布的选择基于实际数据的特性以及分析的需求,其中正态分布假设因其数学属性和中心极限定理的支持,在实践中被广泛采用。
四、似然函数与对数似然
为了找到最佳的参数
θ
\theta
θ,我们构造似然函数来衡量在给定参数
θ
\theta
θ 下数据出现的概率:
L
(
θ
)
=
∏
i
=
1
m
p
(
y
(
i
)
∣
x
(
i
)
;
θ
)
L(\theta) = \prod_{i=1}^m p(y^{(i)} | x^{(i)}; \theta)
L(θ)=i=1∏mp(y(i)∣x(i);θ)
对数似然函数为:
log
L
(
θ
)
=
∑
i
=
1
m
log
(
1
2
π
σ
exp
(
−
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
2
σ
2
)
)
\log L(\theta) = \sum_{i=1}^m \log \left( \frac{1}{\sqrt{2\pi}\sigma} \exp \left(-\frac{(y^{(i)} - \theta^T x^{(i)})^2}{2\sigma^2}\right) \right)
logL(θ)=i=1∑mlog(2πσ1exp(−2σ2(y(i)−θTx(i))2))
展开后,我们可以得到一个关于
θ
\theta
θ 的函数,该函数与最小二乘法中的目标函数密切相关。
五、最小二乘法的详细推导
最小二乘法是一种广泛使用的线性回归求解方法,它通过最小化误差的平方和来估计模型参数。我们从定义目标函数开始:
J ( θ ) = 1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 J(\theta) = \frac{1}{2} \sum_{i=1}^m (y^{(i)} - \theta^T x^{(i)})^2 J(θ)=21i=1∑m(y(i)−θTx(i))2
这里, J ( θ ) J(\theta) J(θ) 表示损失函数,即所有样本的预测误差平方和的一半。 m m m 是样本数量, y ( i ) y^{(i)} y(i) 是第 i i i 个观测值, θ T x ( i ) \theta^T x^{(i)} θTx(i) 是第 i i i 个预测值。
目标函数的矩阵形式
为了方便求解,将上述求和表达式转换为矩阵形式。定义矩阵 X X X 为设计矩阵,其中包含所有样本的特征, y y y 为观测值向量。则目标函数可重写为:
J ( θ ) = 1 2 ( X θ − y ) T ( X θ − y ) J(\theta) = \frac{1}{2} (X\theta - y)^T (X\theta - y) J(θ)=21(Xθ−y)T(Xθ−y)
求导并求解 θ \theta θ
为了找到使 J ( θ ) J(\theta) J(θ) 最小的 θ \theta θ,需要对 θ \theta θ 求导并设置导数等于零。使用矩阵求导公式,求解过程如下:
-
展开目标函数:
J ( θ ) = 1 2 ( θ T X T − y T ) ( X θ − y ) J(\theta) = \frac{1}{2} (\theta^T X^T - y^T)(X\theta - y) J(θ)=21(θTXT−yT)(Xθ−y)
= 1 2 ( θ T X T X θ − θ T X T y − y T X θ + y T y ) = \frac{1}{2} (\theta^T X^T X \theta - \theta^T X^T y - y^T X \theta + y^T y) =21(θTXTXθ−θTXTy−yTXθ+yTy) -
对 θ \theta θ 求导:
导数涉及以下几个部分的矩阵求导:- ∂ ∂ θ ( θ T X T X θ ) = 2 X T X θ \begin{aligned}\frac{\partial}{\partial \theta} (\theta^T X^T X \theta) = 2X^T X \theta\end{aligned} ∂θ∂(θTXTXθ)=2XTXθ(应用了 ∂ ∂ X ( X T A X ) = ( A + A T ) X \begin{aligned}\frac{\partial}{\partial X} (X^T A X) = \left(A+A^T\right) X\end{aligned} ∂X∂(XTAX)=(A+AT)X 当 A A A 为对称矩阵)
- ∂ ∂ θ ( θ T X T y ) = X T y \begin{aligned}\frac{\partial}{\partial \theta} (\theta^T X^T y) = X^T y\end{aligned} ∂θ∂(θTXTy)=XTy(因为 ∂ ∂ θ ( θ T X ) = X \begin{aligned}\frac{\partial}{\partial \theta} (\theta^TX) = X\end{aligned} ∂θ∂(θTX)=X)
- ∂ ∂ θ ( y T X θ ) = X T y \begin{aligned}\frac{\partial}{\partial \theta} (y^T X \theta) = X^T y\end{aligned} ∂θ∂(yTXθ)=XTy(因为 ∂ ∂ θ ( X θ ) = X T \begin{aligned}\frac{\partial}{\partial \theta} (X \theta) = X^T\end{aligned} ∂θ∂(Xθ)=XT)
综合上述导数:
∂ J ( θ ) ∂ θ = X T X θ − X T y \frac{\partial J(\theta)}{\partial \theta} = X^T X \theta - X^T y ∂θ∂J(θ)=XTXθ−XTy -
设置导数等于零求解 θ \theta θ:
X T X θ = X T y X^T X \theta = X^T y XTXθ=XTy
解这个方程得到 θ \theta θ 的最优解:
θ = ( X T X ) − 1 X T y \theta = (X^T X)^{-1} X^T y θ=(XTX)−1XTy
结论
通过上述推导,我们得到了线性回归的解析解,即最小二乘法的解。这种方法直接通过矩阵运算得到参数估计,避免了迭代求解的复杂性,适用于变量数量不多且设计矩阵 X X X 的列线性独立时的情形。
六、总结
通过上述推导,我们展示了如何从概率分布的角度出发,通过最大化似然函数来推导出最小二乘法,最终求解线性回归模型。这种方法不仅可以提供参数估计的统计解释,还可以通过解析解直接计算参数,使得线性回归在实际应用中非常高效。理解这些基础的数学原理有助于深入理解线性模型的工作机制及其局限性。