- 什么是似然函数?
- 似然函数的构造
- 最大似然函数
- 似然函数与线性回归
- 为了去求这个 θ \theta θ参数
- 解释:条件概率 p ( y ( i ) ∣ x ( i ) ; θ ) p(y^{(i)} \mid x^{(i)} ; \theta) p(y(i)∣x(i);θ)
- 高斯分布的特性
- 进一步理解了
p
(
y
(
i
)
∣
x
(
i
)
;
θ
)
p(y^{(i)} \mid x^{(i)} ; \theta)
p(y(i)∣x(i);θ)的意义
- 高斯分布的中心对应误差最小,即模型预测值与实际值接近的情况。在这种情况下,概率 p p p 最大。
- 高斯分布的末端对应误差较大,即模型预测值与实际值差异较大的情况。在这种情况下,概率 p p p 非常小。
- 进一步理解了
p
(
y
(
i
)
∣
x
(
i
)
;
θ
)
p(y^{(i)} \mid x^{(i)} ; \theta)
p(y(i)∣x(i);θ)的意义
1. 什么是似然函数?
似然函数(Likelihood Function)是统计学中用于估计模型参数的一种函数。
它描述了在给定模型参数的情况下,观测到当前数据的概率。
简单来说,似然函数衡量的是模型参数值与数据之间的匹配程度。似然函数的值越大,表示在当前参数下数据出现的可能性越大。
假设我们有一个参数为 θ \theta θ 的模型,观测到的样本数据为 X = { x 1 , x 2 , … , x n } X = \{x_1, x_2, \dots, x_n\} X={x1,x2,…,xn},那么似然函数 L ( θ ∣ X ) L(\theta \mid X) L(θ∣X) 可以表示为:
L ( θ ∣ X ) = P ( X ∣ θ ) L(\theta \mid X) = P(X \mid \theta) L(θ∣X)=P(X∣θ)
其中:
- X X X 是观测到的数据(已知)。
- θ \theta θ 是模型的参数(未知,需要估计)。
- P ( X ∣ θ ) P(X \mid \theta) P(X∣θ) 是在参数 θ \theta θ 下,数据 X X X 出现的概率。
在统计推断中,我们通过最大化似然函数,来找到最符合数据的模型参数。
似然函数的构造
对于独立同分布(i.i.d.)的样本 X X X,可以假设每个样本的概率是独立的,因此似然函数是所有样本概率的乘积:
L ( θ ∣ X ) = P ( x 1 ∣ θ ) ⋅ P ( x 2 ∣ θ ) ⋅ ⋯ ⋅ P ( x n ∣ θ ) L(\theta \mid X) = P(x_1 \mid \theta) \cdot P(x_2 \mid \theta) \cdot \dots \cdot P(x_n \mid \theta) L(θ∣X)=P(x1∣θ)⋅P(x2∣θ)⋅⋯⋅P(xn∣θ)
或者更一般地,写成:
L ( θ ∣ X ) = ∏ i = 1 n P ( x i ∣ θ ) L(\theta \mid X) = \prod_{i=1}^{n} P(x_i \mid \theta) L(θ∣X)=i=1∏nP(xi∣θ)
因为似然函数通常是概率密度的乘积,而乘积的计算容易引起浮点数下溢,因此我们常常对似然函数取对数,称为对数似然函数(Log-Likelihood Function):
ℓ ( θ ∣ X ) = log L ( θ ∣ X ) = ∑ i = 1 n log P ( x i ∣ θ ) \ell(\theta \mid X) = \log L(\theta \mid X) = \sum_{i=1}^{n} \log P(x_i \mid \theta) ℓ(θ∣X)=logL(θ∣X)=i=1∑nlogP(xi∣θ)
对数似然函数和似然函数的最大值在同一个点处取到,因此可以通过最大化对数似然函数来进行参数估计。
似然函数的作用
-
估计模型参数(最大似然估计,MLE):
- 最大似然估计(Maximum Likelihood Estimation, MLE)是统计学中常用的估计方法。它的思想是找到使得观测数据在给定模型下出现的概率最大的参数值。通过最大化似然函数,可以获得模型参数的最优估计。
- 例如,在正态分布 N ( μ , σ 2 ) \mathcal{N}(\mu, \sigma^2) N(μ,σ2) 中,最大似然估计可以用于估计均值 μ \mu μ 和方差 σ 2 \sigma^2 σ2。
-
模型选择:
- 似然函数在不同的模型下取值不同。通过比较不同模型的似然函数值,可以进行模型选择。通常,**AIC(赤池信息准则)和BIC(贝叶斯信息准则)**等模型选择准则都是基于似然函数的值来衡量模型的优劣。
-
假设检验:
- 在统计假设检验中,似然比检验(Likelihood Ratio Test) 是常用的检验方法之一。通过比较两个模型的似然函数值,可以判断哪个模型更适合数据,从而进行假设检验。
例子:最大似然估计
假设我们有一组独立同分布的样本 X = { x 1 , x 2 , … , x n } X = \{x_1, x_2, \dots, x_n\} X={x1,x2,…,xn},并且假设这些样本来自于均值为 μ \mu μ 和方差为 σ 2 \sigma^2 σ2 的正态分布。正态分布的概率密度函数为:
f ( x ∣ μ , σ 2 ) = 1 2 π σ 2 exp ( − ( x − μ ) 2 2 σ 2 ) f(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( - \frac{(x - \mu)^2}{2 \sigma^2} \right) f(x∣μ,σ2)=2πσ21exp(−2σ2(x−μ)2)
于是,样本 X X X 的似然函数可以写为:
L ( μ , σ 2 ∣ X ) = ∏ i = 1 n 1 2 π σ 2 exp ( − ( x i − μ ) 2 2 σ 2 ) [ 4 ] L(\mu, \sigma^2 \mid X) = \prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( - \frac{(x_i - \mu)^2}{2 \sigma^2} \right) [4] L(μ,σ2∣X)=i=1∏n2πσ21exp(−2σ2(xi−μ)2)[4]
为了简化计算,我们通常对似然函数取对数,得到对数似然函数:
ℓ ( μ , σ 2 ∣ X ) = − n 2 log ( 2 π ) − n 2 log ( σ 2 ) − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 \ell(\mu, \sigma^2 \mid X) = - \frac{n}{2} \log(2\pi) - \frac{n}{2} \log(\sigma^2) - \frac{1}{2 \sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2 ℓ(μ,σ2∣X)=−2nlog(2π)−2nlog(σ2)−2σ21i=1∑n(xi−μ)2
通过最大化对数似然函数,我们可以得到均值 μ \mu μ 和方差 σ 2 \sigma^2 σ2 的最大似然估计值。
2. 似然函数与线性回归
- 预测值与误差:
y ( i ) = θ T x ( i ) + ε ( i ) [ 1 ] y^{(i)} = \theta^T x^{(i)} + \varepsilon^{(i)} [1] y(i)=θTx(i)+ε(i)[1]
- 由于误差服从高斯分布:
p ( ε ( i ) ) = 1 2 π σ exp ( − ( ε ( i ) ) 2 2 σ 2 ) [ 2 ] p(\varepsilon^{(i)}) = \frac{1}{\sqrt{2\pi\sigma}} \exp\left(- \frac{(\varepsilon^{(i)})^2}{2\sigma^2} \right) [2] p(ε(i))=2πσ1exp(−2σ2(ε(i))2)[2]
- 将 (1) 式带入 (2) 式:
p ( y ( i ) ∣ x ( i ) ; θ ) = 1 2 π σ exp ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) [ 3 ] p(y^{(i)} \mid x^{(i)}; \theta) = \frac{1}{\sqrt{2\pi\sigma}} \exp\left( - \frac{(y^{(i)} - \theta^T x^{(i)})^2}{2\sigma^2} \right) [3] p(y(i)∣x(i);θ)=2πσ1exp(−2σ2(y(i)−θTx(i))2)[3]
3. 解释:条件概率 p ( y ( i ) ∣ x ( i ) ; θ ) p(y^{(i)} \mid x^{(i)} ; \theta) p(y(i)∣x(i);θ)
p ( y ( i ) ∣ x ( i ) ; θ ) p(y^{(i)} \mid x^{(i)} ; \theta) p(y(i)∣x(i);θ) 表示的是在给定输入 x ( i ) x^{(i)} x(i) 和模型参数 θ \theta θ 的条件下,观测到输出 y ( i ) y^{(i)} y(i) 的概率。
这个表达式是从条件概率的角度来描述模型输出的分布。
它说明:在给定特征
x
(
i
)
x^{(i)}
x(i) 和模型参数
θ
\theta
θ 时,输出
y
(
i
)
y^{(i)}
y(i) 的概率密度如何分布。
如何推导得到的:
从图中的第一个等式 y ( i ) = θ T x ( i ) + ε ( i ) y^{(i)} = \theta^T x^{(i)} + \varepsilon^{(i)} y(i)=θTx(i)+ε(i) 可以看出, y ( i ) y^{(i)} y(i) 是由模型的预测值 θ T x ( i ) \theta^T x^{(i)} θTx(i) 加上误差项 ε ( i ) \varepsilon^{(i)} ε(i) 构成的。
由于误差项 ε ( i ) \varepsilon^{(i)} ε(i) 服从高斯分布,因此可以推导出 y ( i ) y^{(i)} y(i) 也是服从高斯分布的。该分布的均值为 θ T x ( i ) \theta^T x^{(i)} θTx(i),方差为 σ 2 \sigma^2 σ2。
所以,我们可以根据误差项的分布形式推导出条件概率 p ( y ( i ) ∣ x ( i ) ; θ ) p(y^{(i)} \mid x^{(i)} ; \theta) p(y(i)∣x(i);θ)。
整体理解:
条件概率表达式 p ( y ( i ) ∣ x ( i ) ; θ ) p(y^{(i)} \mid x^{(i)} ; \theta) p(y(i)∣x(i);θ) 描述的是:给定输入 x ( i ) x^{(i)} x(i) 和模型参数 θ \theta θ,输出 y ( i ) y^{(i)} y(i) 出现的概率。通过高斯分布假设,可以推导出在 y ( i ) y^{(i)} y(i) 和模型预测 θ T x ( i ) \theta^T x^{(i)} θTx(i) 之间的误差的概率分布形式,这就是第三个等式的意义所在。
4. 高斯分布的特性
在正态分布(高斯分布)中,数据点越靠近分布中心,它们的概率密度就越大。分布的中心就是均值,对于回归问题而言,分布中心对应的就是模型的预测值。反之,数据点越远离中心(也就是越接近高斯分布的末端),它们的概率密度越小。
因此,在高斯分布的末端,出现大的误差(即观测值和预测值之间差距很大)的概率非常小。
具体到回归问题中的误差:
回顾条件概率 p ( y ( i ) ∣ x ( i ) ; θ ) p(y^{(i)} \mid x^{(i)}; \theta) p(y(i)∣x(i);θ)的公式:
p ( y ( i ) ∣ x ( i ) ; θ ) = 1 2 π σ exp ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) p(y^{(i)} \mid x^{(i)}; \theta) = \frac{1}{\sqrt{2\pi\sigma}} \exp\left( - \frac{(y^{(i)} - \theta^T x^{(i)})^2}{2\sigma^2} \right) p(y(i)∣x(i);θ)=2πσ1exp(−2σ2(y(i)−θTx(i))2)
这里, y ( i ) − θ T x ( i ) y^{(i)} - \theta^T x^{(i)} y(i)−θTx(i) 表示实际观测值 y ( i ) y^{(i)} y(i) 与模型预测值 θ T x ( i ) \theta^T x^{(i)} θTx(i) 之间的差异,即误差。
- 当这个差异(误差)很小时,即实际值非常接近模型预测值, p ( y ( i ) ∣ x ( i ) ; θ ) p(y^{(i)} \mid x^{(i)}; \theta) p(y(i)∣x(i);θ) 的值会很大。这是因为小误差对应高斯分布的中心区域,在这个区域出现的概率很高。
- 反之,当这个差异(误差)很大时,意味着数据点远离高斯分布的中心,位于分布的末端部分。在这种情况下, p ( y ( i ) ∣ x ( i ) ; θ ) p(y^{(i)} \mid x^{(i)}; \theta) p(y(i)∣x(i);θ) 的值会非常小,因为大误差在高斯分布的末端出现的概率非常低。
解释为:
- 高斯分布的中心对应误差最小,即模型预测值与实际值接近的情况。在这种情况下,概率 p p p 最大。
- 高斯分布的末端对应误差较大,即模型预测值与实际值差异较大的情况。在这种情况下,概率 p p p 非常小。
为什么我们希望 p p p 越大越好:
因为我们希望模型的预测尽可能准确,即误差 y ( i ) − θ T x ( i ) y^{(i)} - \theta^T x^{(i)} y(i)−θTx(i) 尽可能小。当误差小的时候,观测到的输出 ( y^{(i)} ) 更可能落在高斯分布的中心区域,此时条件概率 ( p ) 大,表示数据在该模型下的出现概率高,模型更能匹配实际数据。
总结:
- 高斯分布的一个重要性质是,数据越靠近分布的均值(预测值),出现的概率越高。
- 误差 y ( i ) − θ T x ( i ) y^{(i)} - \theta^T x^{(i)} y(i)−θTx(i) 越大,数据点越远离高斯分布的中心,出现的概率越小。
- 误差最小时,条件概率 p p p 最大,这是我们希望达到的目标,因此我们通过最大化条件概率来找到使误差最小的参数 θ \theta θ。
5. 对数似然函数的展开化简
为了估计最大似然,把[3]带入到[4]中,并求取对数可得。
对数似然函数为:
∑ i = 1 m log ( 1 2 π σ exp ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) ) \sum_{i=1}^{m} \log \left( \frac{1}{\sqrt{2\pi\sigma}} \exp \left( - \frac{(y^{(i)} - \theta^T x^{(i)})^2}{2\sigma^2} \right) \right) i=1∑mlog(2πσ1exp(−2σ2(y(i)−θTx(i))2))
展开为:
= m log ( 1 2 π σ ) − 1 2 σ 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 = m \log \left( \frac{1}{\sqrt{2\pi\sigma}} \right) - \frac{1}{2\sigma^2} \sum_{i=1}^{m} (y^{(i)} - \theta^T x^{(i)})^2 =mlog(2πσ1)−2σ21i=1∑m(y(i)−θTx(i))2
其中:
- 第一部分: m log ( 1 2 π σ ) m \log \left( \frac{1}{\sqrt{2\pi\sigma}} \right) mlog(2πσ1) 是常数项,与参数 θ \theta θ 无关。
- 第二部分: − 1 2 σ 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 - \frac{1}{2\sigma^2} \sum_{i=1}^{m} (y^{(i)} - \theta^T x^{(i)})^2 −2σ21∑i=1m(y(i)−θTx(i))2 是与参数 θ \theta θ 相关的部分,这部分是我们要最大化的目标函数。
目标:让似然函数(对数变换后)越大越好
在最大似然估计中,目标是让似然函数尽可能大。由于对数函数是单调递增的,因此最大化似然函数等价于最大化对数似然函数。在这里,化简后的对数似然函数包含一个负号,因此最大化对数似然函数等价于最小化残差平方和。
最小二乘法
化简后的目标函数为:
J ( θ ) = 1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (y^{(i)} - \theta^T x^{(i)})^2 J(θ)=21i=1∑m(y(i)−θTx(i))2
这个函数正是最小二乘法的目标函数。最小二乘法的思想是通过最小化预测值与真实值之间的平方差来找到最优的参数 ( \theta )。