题目1:说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果,其中k次的结果为1,这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。
答
模型:伯努利模型,即定义在取值为0与1的随机变量上的概率分布。
策略:极大似然估计和贝叶斯估计的策略都是对数损失函数,贝叶斯估计使用的是结构风险最小化。
算法:极大似然估计所使用的算法是求取经验风险函数的极小值,贝叶斯估计所使用的算法是求取参数的后验分布,然后计算其期望。
设 P ( A = 1 ) = θ P(A = 1)= \theta P(A=1)=θ, 进行了n次实验,其中有k次值为1
-
方法一:极大似然估计
设似然函数为 L ( θ ) = ∏ i = 1 n P ( A i ) = θ k ( 1 − θ ) n − k L(\theta)=\prod_{i=1}^{n} P\left(A_{i}\right)=\theta^{k}(1-\theta)^{n-k} L(θ)=∏i=1nP(Ai)=θk(1−θ)n−k
取对数为 L ( θ ) = k ∗ ln θ + ( n − k ) ∗ ln ( 1 − θ ) L(\theta)=k * \ln \theta+(n-k) * \ln (1-\theta) L(θ)=k∗lnθ+(n−k)∗ln(1−θ)
对L求 θ \theta θ 导: L ′ ( θ ) = k θ − n − k 1 − θ L^{\prime}(\theta)=\frac{k}{\theta}-\frac{n-k}{1-\theta} L′(θ)=θk−1−θn−k
令L’等于0, θ = k n \theta=\frac{k}{n} θ=nk -
方法二:贝叶斯估计
将 θ \theta θ 看作一个变量,假设其先验分布为均匀分布,更具贝叶斯定理,其后验分布为:
f ( θ ∣ A 1 , … , A n ) = f ( A 1 , d o t s , A n ∣ θ ) f ( θ ) ∫ f ( A 1 , … , A n ) f ( θ ) d θ f(\theta|A_1,\dots,A_n) = \frac{f(A_1,dots,A_n|\theta)f(\theta)}{\int f(A_1,\dots,A_n)f(\theta)d\theta} f(θ∣A1,…,An)=∫f(A1,…,An)f(θ)dθf(A1,dots,An∣θ)f(θ)
可化为 f ( θ ∣ A 1 , … , A n ) ∝ θ k ( 1 − θ ) n − k f(\theta|A_1,\dots,A_n)\propto\theta^k(1-\theta)^{n-k} f(θ∣A1,…,An)∝θk(1−θ)n−k,因为上市分母与 θ \theta θ 无关( f ( θ ) = 1 f(\theta)=1 f(θ)=1),此时想要最大化后验概率,需求的 θ k ( 1 − θ ) n − k \theta^k(1-\theta)^{n-k} θk(1−θ)n−k的极值点,此时求解方法同极大似然估计。
当模型是条件概率分布、损失函数是对数损失函数时,经验风险最小化等价于极大似然估计(maximum likelihood estimation)。
证明
对数损失函数(logarithmic loss function):
L
(
Y
,
P
(
Y
∣
X
)
)
=
−
l
o
g
P
(
Y
∣
X
)
L(Y,P(Y|X)) = -logP(Y|X)
L(Y,P(Y∣X))=−logP(Y∣X)
经验风险最小化(structural risk minimization, SRM)求最优化模型就是求解最优化问题:
m
i
n
1
N
∑
i
=
1
n
L
(
y
i
,
f
(
x
i
)
)
min\frac{1}{N}\sum_{i=1}^{n}L(y_i,f(x_i))
minN1i=1∑nL(yi,f(xi))
将对数损失函数带入最优化问题得:
m
i
n
1
N
∑
i
=
1
n
L
(
y
i
,
f
(
x
i
)
)
=
m
i
n
−
1
N
∑
i
=
1
n
l
o
g
P
(
y
i
∣
x
i
)
=
m
a
x
1
N
l
o
g
P
(
Y
∣
X
)
min\frac{1}{N}\sum_{i=1}^{n}L(y_i,f(x_i))=min-\frac{1}{N}\sum_{i=1}^{n}logP(y_i|x_i)=max\frac{1}{N}logP(Y|X)
minN1i=1∑nL(yi,f(xi))=min−N1i=1∑nlogP(yi∣xi)=maxN1logP(Y∣X)
当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,贝叶斯估计中的最大后验概率估计(maximum posterior probability estimation, MAP)就是结构风险最小化的例子。
证明
求解最优结构风险最小化模型,就是求解最优化问题:
m
i
n
1
N
∑
i
=
1
n
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
min\frac{1}{N}\sum_{i=1}^{n}L(y_i,f(x_i))+\lambda J(f)
minN1i=1∑nL(yi,f(xi))+λJ(f)
将对数损失函数及
J
(
f
)
=
−
λ
P
(
θ
)
J(f)=-\lambda P(\theta)
J(f)=−λP(θ)带入最优化问题得:
m
i
n
−
1
N
(
∑
i
=
1
n
l
o
g
P
(
y
i
∣
x
i
)
−
λ
J
(
f
)
)
=
m
a
x
1
N
l
o
g
P
(
Y
∣
X
)
+
P
(
θ
)
min-\frac{1}{N}(\sum_{i=1}^{n}logP(y_i|x_i)-\lambda J(f))=max\frac{1}{N}logP(Y|X)+P(\theta)
min−N1(i=1∑nlogP(yi∣xi)−λJ(f))=maxN1logP(Y∣X)+P(θ)
等价于: 后验概率最大化
P
(
θ
∣
D
)
=
P
(
θ
)
P
(
D
∣
θ
)
P
(
D
)
P(\theta|D)=\frac{P(\theta)P(D|\theta)}{P(D)}
P(θ∣D)=P(D)P(θ)P(D∣θ)