似然函数是将线性回归模型的输出(或者说误差项
ϵ
(
i
)
\epsilon^{(i)}
ϵ(i))代入其概率密度函数(正态分布的PDF),然后对所有数据点的这些概率进行乘积,从而得到整体数据集在给定参数下出现的可能性。
对于简单的线性回归模型,我们有如下的公式:
y
(
i
)
=
θ
T
x
(
i
)
+
ϵ
(
i
)
y^{(i)} = \theta^T x^{(i)} + \epsilon^{(i)}
y(i)=θTx(i)+ϵ(i)
其中,
y
(
i
)
y^{(i)}
y(i)是响应变量,
x
(
i
)
{ x^{(i)}}
x(i)是特征向量,
θ
θ
θ是模型的系数,而
ϵ
(
i
)
\epsilon^{(i)}
ϵ(i)是误差项。
在构建似然函数时,我们通常假设误差项
ϵ
(
i
)
\epsilon^{(i)}
ϵ(i)遵循正态分布,即
ϵ
(
i
)
∼
N
(
0
,
σ
2
)
\epsilon^{(i)} \sim N(0, \sigma^2)
ϵ(i)∼N(0,σ2),这里概率密度函数为:
p
(
ϵ
(
i
)
)
=
1
2
π
σ
2
exp
(
−
(
ϵ
(
i
)
)
2
2
σ
2
)
p(\epsilon^{(i)}) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(\epsilon^{(i)})^2}{2\sigma^2}\right)
p(ϵ(i))=2πσ21exp(−2σ2(ϵ(i))2)
在这个假设下,将线性回归模型代入概率密度函数,对于单个观测值
y
(
i
)
y^{(i)}
y(i),其概率密度函数可以表示为:
p
(
y
(
i
)
∣
x
(
i
)
,
θ
,
σ
2
)
=
1
2
π
σ
2
exp
(
−
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
2
σ
2
)
p(y^{(i)} | x^{(i)}, \theta, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y^{(i)} - \theta^T x^{(i)})^2}{2\sigma^2}\right)
p(y(i)∣x(i),θ,σ2)=2πσ21exp(−2σ2(y(i)−θTx(i))2)
这里,
y
(
i
)
−
θ
T
x
(
i
)
y^{(i)} - \theta^T x^{(i)}
y(i)−θTx(i)实际上就是误差项
ϵ
(
i
)
\epsilon^{(i)}
ϵ(i)。
似然函数 L ( θ , σ 2 ∣ X , Y ) L(\theta, \sigma^2 | X, Y) L(θ,σ2∣X,Y)是在所有观测数据下这些概率密度函数的乘积:
L ( θ , σ 2 ∣ X , Y ) = ∏ i = 1 n p ( y ( i ) ∣ x ( i ) , θ , σ 2 ) L(\theta, \sigma^2 | X, Y) = \prod_{i=1}^{n} p(y^{(i)} | x^{(i)}, \theta, \sigma^2) L(θ,σ2∣X,Y)=i=1∏np(y(i)∣x(i),θ,σ2)
这里,( X ) 和 ( Y ) 分别代表所有的特征向量和响应变量。
在最大似然估计(MLE)中,目标是找到参数 θ \theta θ和 σ 2 \sigma^2 σ2,使得这个似然函数最大化。这些参数是在给定数据下最能解释观测到的数据的参数。
总结来说,似然函数是将线性回归模型的输出(或者说误差项 ϵ ( i ) \epsilon^{(i)} ϵ(i))代入其概率密度函数(正态分布的PDF),然后对所有数据点的这些概率进行乘积,从而得到整体数据集在给定参数下出现的可能性。
对数似然:由于似然函数是乘法运算,导致运算效率低,通过Log对数运算把乘法运算转换为加法运算能极大提升效率,并且加法运算能解决大量乘法运算的数值下溢问题。对数函数是单调递增的,所以它不改变似然函数最大值的位置。因此在许多统计分析和机器学习应用中,大都会使用对数似然而不是原始的似然函数。
对于线性回归模型的例子,假设误差项服从正态分布,似然函数可以表示为:
L ( θ , σ 2 ∣ X , Y ) = ∏ i = 1 n 1 2 π σ 2 exp ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) L(\theta, \sigma^2 | X, Y) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y^{(i)} - \theta^T x^{(i)})^2}{2\sigma^2}\right) L(θ,σ2∣X,Y)=i=1∏n2πσ21exp(−2σ2(y(i)−θTx(i))2)
对数似然函数 log L ( θ , σ 2 ∣ X , Y ) \log L(\theta, \sigma^2 | X, Y) logL(θ,σ2∣X,Y)则是:
log L ( θ , σ 2 ∣ X , Y ) = ∑ i = 1 n log ( 1 2 π σ 2 ) − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 \log L(\theta, \sigma^2 | X, Y) = \sum_{i=1}^{n} \log\left(\frac{1}{\sqrt{2\pi\sigma^2}}\right) - \frac{(y^{(i)} - \theta^T x^{(i)})^2}{2\sigma^2} logL(θ,σ2∣X,Y)=i=1∑nlog(2πσ21)−2σ2(y(i)−θTx(i))2
这可以进一步简化为:
log L ( θ , σ 2 ∣ X , Y ) = − n 2 log ( 2 π σ 2 ) − 1 2 σ 2 ∑ i = 1 n ( y ( i ) − θ T x ( i ) ) 2 \log L(\theta, \sigma^2 | X, Y) = -\frac{n}{2} \log(2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (y^{(i)} - \theta^T x^{(i)})^2 logL(θ,σ2∣X,Y)=−2nlog(2πσ2)−2σ21i=1∑n(y(i)−θTx(i))2
在最大化对数似然函数的过程中,我们寻找能使 log L ( θ , σ 2 ∣ X , Y ) \log L(\theta, \sigma^2 | X, Y) logL(θ,σ2∣X,Y)最大的参数 θ \theta θ 和 σ 2 \sigma^2 σ2。这个过程等价于最小化误差项的平方和,这是线性回归中常用的最小二乘法。