习题
1.1 说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0或1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果,其中k次的结果为1,这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。
答:
(1) 伯努利模型的极大似然估计以及贝叶斯估计的三要素:
估计 | 模型 | 策略 | 算法 |
---|---|---|---|
极大然估计 | 条件概率 P(Y|X) | 经验风险Remp(f) | 对经验风险最小化(求导 = 0) |
贝叶斯估计 | 条件概率P(Y|X) | 结构风险Rsrm(f) | 对结构风险最小化(求导 = 0) |
定义随机变量Y为一次实验结果。Y = {0,1},概率分布为P(Y)
P(Y=0) = 1-θ
极大似然估计:
step1: 求出似然函数L(θ)
L
(
θ
)
=
∏
i
=
1
n
P
(
Y
i
)
L(θ) = \prod_{i = 1}^n{P(Y_{i}})
L(θ)=i=1∏nP(Yi)
n:实验次数
step2: 对数似然函数
l
o
g
(
L
(
θ
)
)
=
l
o
g
∏
i
=
1
n
P
(
Y
i
)
=
l
o
g
(
θ
k
(
1
−
θ
)
(
n
−
k
)
)
=
k
l
o
g
θ
+
(
n
−
k
)
l
o
g
(
1
−
θ
)
log(L(θ)) = log{ \prod_{i = 1}^n{P(Y_{i}}) }= log(θ^{k}(1-θ)^{(n-k)}) \\ =klogθ+(n-k)log(1-θ)
log(L(θ))=logi=1∏nP(Yi)=log(θk(1−θ)(n−k))=klogθ+(n−k)log(1−θ)
step3: 对似然函数极大化,求出极大值点θ*
∇
θ
l
o
g
(
L
(
θ
)
)
=
k
θ
+
n
−
k
1
−
θ
=
0
θ
∗
=
k
n
\nabla_{θ}log(L(θ))= \frac{k}{θ}+\frac{n-k}{1-θ}=0\\ θ^{*}=\frac{k}{n}
∇θlog(L(θ))=θk+1−θn−k=0θ∗=nk
结果为1的概率为
θ
∗
=
k
n
θ^{*}=\frac{k}{n}
θ∗=nk
贝叶斯估计:
贝叶斯估计中参数θ服从分布,P(θ)为先验概率分布。
设P(θ)为β(Beta Distribution) 分布.
P
(
θ
)
=
θ
a
−
1
(
1
−
θ
)
b
−
1
常
数
P(θ) = \frac{θ^{a-1}(1-θ)^{b-1}}{常数}
P(θ)=常数θa−1(1−θ)b−1
P
(
θ
∣
Y
1
,
Y
2
,
.
.
,
Y
n
)
=
P
(
Y
1
,
Y
2
,
.
.
.
,
Y
n
∣
θ
)
P
(
θ
)
P
(
Y
1
,
Y
2
,
.
.
.
,
Y
n
)
P(θ|Y_1,Y_2,..,Y_n) = \frac{P(Y_1,Y_2,...,Y_n|θ)P(θ)}{P(Y_1,Y_2,...,Y_n)}
P(θ∣Y1,Y2,..,Yn)=P(Y1,Y2,...,Yn)P(Y1,Y2,...,Yn∣θ)P(θ)
上述公式中分母与θ无关,
P
(
θ
∣
Y
1
,
Y
2
,
.
.
,
Y
n
)
∝
P
(
Y
1
,
Y
2
,
.
.
.
,
Y
n
∣
θ
)
P
(
θ
)
=
∏
i
=
1
n
P
(
Y
i
∣
θ
)
P
(
θ
)
=
θ
k
(
1
−
θ
)
n
−
k
θ
a
−
1
(
1
−
θ
)
b
−
1
=
θ
k
+
a
−
1
(
1
−
θ
)
n
−
k
+
b
−
1
P(θ|Y_1,Y_2,..,Y_n)∝P(Y_1,Y_2,...,Y_n|θ)P(θ)=\prod_{i=1}^{n}P(Y_i|θ)P(θ)\\ = θ^{k}(1-θ)^{n-k}θ^{a-1}(1-θ)^{b-1}\\=θ^{k+a-1}(1-θ)^{n-k+b-1}
P(θ∣Y1,Y2,..,Yn)∝P(Y1,Y2,...,Yn∣θ)P(θ)=i=1∏nP(Yi∣θ)P(θ)=θk(1−θ)n−kθa−1(1−θ)b−1=θk+a−1(1−θ)n−k+b−1
对上述结果最大化(求导为0)
θ
=
k
+
a
−
1
n
+
(
a
−
1
)
+
(
b
−
1
)
θ = \frac{k+a-1}{n+(a-1)+(b-1)}
θ=n+(a−1)+(b−1)k+a−1
1.2 通过经验风险最小化推导极大似然估计。证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。
答:
经验风险:
R
e
m
p
(
f
)
=
1
N
∑
i
N
L
(
y
i
,
f
(
x
i
)
)
R_{emp}(f)=\frac{1}{N}\sum_{i}^{N}{L(y_i,f(x_i))}
Remp(f)=N1i∑NL(yi,f(xi))
对其进行最小化:
min
f
属
于
F
R
e
m
p
\min_{f属于F}{R_{emp}}
f属于FminRemp
F是假设空间。
条件概率分布:
f
(
x
)
=
P
(
Y
∣
X
)
f(x) = P(Y|X)
f(x)=P(Y∣X)
损失函数为对数损失:
L
(
Y
,
P
(
Y
∣
X
)
)
=
−
l
o
g
(
P
(
Y
∣
X
)
)
L(Y,P(Y|X))=-log(P(Y|X))
L(Y,P(Y∣X))=−log(P(Y∣X))
R
e
m
p
=
1
N
∑
i
=
1
N
−
log
P
(
Y
i
∣
X
i
)
=
−
1
N
log
∏
i
=
1
N
P
(
Y
i
∣
X
i
)
R_{emp} = \frac{1}{N}\sum_{i=1}^{N}{-\log{P(Y_i|X_i)}}\\=-\frac{1}{N}\log{\prod_{i=1}^{N}{P(Y_i|X_i)}}
Remp=N1i=1∑N−logP(Yi∣Xi)=−N1logi=1∏NP(Yi∣Xi)
通过上个式子可以看出最小化经验损失等价于极大似然估计(前面有符号)
1.3 通过结构风险最小化推导极大似然估计。证明模型是条件概率分布,当损失函数是对数损失函数时、模型的复杂度由模型的先验概率表示时,结构风险最小化等价于极大似然估计。
答:
结构风险最小化是为了防止过拟合而提出的策略。等价于正则化。
R
s
r
m
=
1
N
∑
i
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
R_{srm} =\frac{1}{N}\sum_{i}^{N}{L(y_i,f(x_i))}+λ J(f)
Rsrm=N1i∑NL(yi,f(xi))+λJ(f)
J(f)表示模型的复杂度。λ≥0为系数,用来权衡模型的拟合程度与复杂度。
对其进行最小化:
min
f
属
于
F
R
s
r
m
\min_{f属于F}{R_{srm}}
f属于FminRsrm
F是假设空间。
条件概率分布:
f
(
x
)
=
P
(
Y
∣
X
)
f(x) = P(Y|X)
f(x)=P(Y∣X)
损失函数为对数损失:
L
(
Y
,
P
(
Y
∣
X
)
)
=
−
l
o
g
(
P
(
Y
∣
X
,
θ
)
)
L(Y,P(Y|X))=-log(P(Y|X,θ))
L(Y,P(Y∣X))=−log(P(Y∣X,θ))
设模型参数为θ,且θ服从先验分布(贝叶斯)。概率分布为P(θ)。
R
s
r
m
=
1
N
∑
i
N
L
(
y
i
,
f
(
x
i
,
θ
)
)
+
λ
J
(
f
)
=
−
1
N
log
(
∏
i
=
1
N
P
(
Y
i
∣
X
i
,
θ
)
−
N
l
o
g
(
e
x
p
(
λ
J
(
f
)
)
)
)
=
−
1
N
log
∏
i
=
1
N
P
(
Y
i
∣
X
i
,
θ
)
e
x
p
(
−
λ
J
(
f
)
)
N
)
R_{srm} = \frac{1}{N}\sum_{i}^{N}{L(y_i,f(x_i,θ))}+λ J(f)\\ = -\frac{1}{N}\log{(\prod_{i=1}^{N}{P(Y_i|X_i,θ)}}-Nlog(exp(λ J(f))))\\= -\frac{1}{N}\log{\prod_{i=1}^{N}{P(Y_i|X_i,θ)}}exp(-λJ(f))^{N})
Rsrm=N1i∑NL(yi,f(xi,θ))+λJ(f)=−N1log(i=1∏NP(Yi∣Xi,θ)−Nlog(exp(λJ(f))))=−N1logi=1∏NP(Yi∣Xi,θ)exp(−λJ(f))N)
由于
∏
i
=
1
N
P
(
Y
i
∣
X
i
,
θ
)
=
P
(
Y
∣
X
,
θ
)
\prod_{i=1}^{N}{P(Y_i|X_i,θ)}=P(Y|X,θ)
∏i=1NP(Yi∣Xi,θ)=P(Y∣X,θ)
R
s
r
m
∝
P
(
Y
∣
X
,
θ
)
e
x
p
(
−
λ
J
(
f
)
)
N
∝
P
(
Y
∣
X
,
θ
)
P
(
θ
)
∝
P
(
Y
∣
X
,
θ
)
P
(
θ
)
P
(
Y
1
,
Y
2
,
.
.
.
,
Y
n
)
∝
P
(
Y
∣
θ
)
P
(
θ
)
P
(
Y
1
,
Y
2
,
.
.
.
,
Y
n
)
R_{srm}∝P(Y|X,θ)exp(-λ J(f))^N\\∝P(Y|X,θ)P(θ)\\∝\frac{P(Y|X,θ)P(θ)}{P(Y_1,Y_2,...,Y_n)}\\∝\frac{P(Y|θ)P(θ)}{P(Y_1,Y_2,...,Y_n)}
Rsrm∝P(Y∣X,θ)exp(−λJ(f))N∝P(Y∣X,θ)P(θ)∝P(Y1,Y2,...,Yn)P(Y∣X,θ)P(θ)∝P(Y1,Y2,...,Yn)P(Y∣θ)P(θ)
模型的复杂度由模型的先验概率表示
P
(
θ
)
=
exp
(
−
λ
J
(
f
)
)
N
P(θ) = \exp(-λJ(f))^N
P(θ)=exp(−λJ(f))N
从式子可以看出,结构风险最小化等价于极大似然估计。
当先验概率比较小时,模型复杂度比较大。
- λ较大时,模型倾向于选择模型较简单(J(f)较小)的模型,拟合效果较差(经验损失比较大)。
- λ较小时,模型倾向于选择模型较复杂(J(f)较大)的模型。拟合效果较好(经验损失比较小)。
- 结构风险需要经验风险以及模型复杂度同时小。
- 结构风险小的模型旺旺对训练数据以及未知的测试数据都有比较好的预测。
参考了这个博客的解答过程,