习题1涉及极大似然估计和贝叶斯估计,可以先看看书的第4章相关内容。
极大似然估计与贝叶斯估计
符号 | 含义 |
---|---|
D | 测试数据 |
θ \theta θ | 待估计的参数 |
p ( θ ) p(\theta) p(θ) | 先验概率 |
p ( θ ∣ D ) p(\theta\mid D) p(θ∣D) | 后验概率 |
p ( D ∣ θ ) p(D\mid\theta) p(D∣θ) | 似然函数 |
对极大似然函数而言,即取使得
p
(
D
∣
θ
)
p(D\mid\theta)
p(D∣θ)最大的
θ
\theta
θ值。有公式
p
(
θ
∣
D
)
=
p
(
D
∣
θ
)
p
(
θ
)
p
(
D
)
p(\theta \mid D)=\frac{p(D \mid \theta) p(\theta)}{p(D)}
p(θ∣D)=p(D)p(D∣θ)p(θ),而
p
(
θ
)
p(\theta)
p(θ)和
p
(
D
)
p(D)
p(D)都是确定的,只要最大化
p
(
D
∣
θ
)
=
∏
i
=
1
n
p
(
x
i
∣
θ
)
p(D \mid \theta)=\prod_{i=1}^{n} p\left(x_{i} \mid\theta\right)
p(D∣θ)=∏i=1np(xi∣θ)即可
而对于贝叶斯估计,先人为假设
θ
\theta
θ的分布(先验概率),利用期望求极大后验概率,
E
(
x
∣
D
)
=
∫
x
x
p
(
x
∣
D
)
d
x
E(x | D)=\int_{x} x p(x | D) d x
E(x∣D)=∫xxp(x∣D)dx
习题1.1
题目:说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果,其中k次的结果为1,这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。
答:
模型:伯努利模型,即定义在取值为0与1的随机变量上的概率分布。
策略:极大似然估计和贝叶斯估计的策略都是对数损失函数,贝叶斯估计使用的是结构风险最小化。
算法:极大似然估计所使用的算法是求取经验风险函数的极小值,贝叶斯估计所使用的算法是求取参数的后验分布,然后计算其期望。
设
P
(
A
=
1
)
=
θ
P(A=1) = \theta
P(A=1)=θ, 进行了n次实验,其中有k次值为1
方法一:极大似然估计
设似然函数为
L
(
θ
)
=
∏
i
=
1
n
P
(
A
i
)
=
θ
k
(
1
−
θ
)
n
−
k
L(\theta)=\prod_{i=1}^{n} P\left(A_{i}\right)=\theta^{k}(1-\theta)^{n-k}
L(θ)=∏i=1nP(Ai)=θk(1−θ)n−k
取对数为
L
(
θ
)
=
k
∗
l
n
θ
+
(
n
−
k
)
∗
l
n
(
1
−
θ
)
L(\theta)=k * ln\theta + (n-k) * ln(1-\theta)
L(θ)=k∗lnθ+(n−k)∗ln(1−θ)
对L求
θ
\theta
θ导:
L
′
(
θ
)
=
k
θ
−
n
−
k
1
−
θ
L'(\theta)= \frac{k}{\theta} - \frac{n-k}{1-\theta}
L′(θ)=θk−1−θn−k
令L’等于0,
θ
=
k
n
\theta = \frac{k}{n}
θ=nk
方法二:贝叶斯估计
先将
θ
\theta
θ看作一个变量,
f
(
θ
)
f\left(\theta \right)
f(θ)表示
θ
\theta
θ的先验分布,假设
θ
\theta
θ服从于
β
(
a
,
b
)
\beta(a,b)
β(a,b)分布(关于为什么假定为
β
\beta
β分布等问题可以参考文末链接),即
f
(
θ
)
=
Γ
(
a
+
b
)
Γ
(
a
)
+
Γ
(
b
)
θ
a
−
1
(
1
−
θ
)
b
−
1
=
1
B
(
a
,
b
)
θ
a
−
1
(
1
−
θ
)
b
−
1
f\left(\theta \right) =\frac{\Gamma(a+b)}{\Gamma(a)+\Gamma(b)}\theta^{a-1}(1-\theta)^{b-1}=\frac{1}{B(a, b)} \theta^{a-1}(1-\theta)^{b-1}
f(θ)=Γ(a)+Γ(b)Γ(a+b)θa−1(1−θ)b−1=B(a,b)1θa−1(1−θ)b−1
其中
Γ
(
x
)
=
∫
0
∞
t
x
−
1
e
−
t
d
t
\Gamma(x)=\int_{0}^{\infty} t^{x-1} e^{-t} d t
Γ(x)=∫0∞tx−1e−tdt
P
(
θ
∣
A
1
,
A
2
,
…
,
A
n
)
=
P
(
A
1
,
A
2
,
…
A
n
∣
θ
)
f
(
θ
)
P
(
A
1
,
A
2
,
…
,
A
n
)
P\left(\theta | A_{1}, A_{2}, \ldots, A_{n}\right)=\frac{P\left(A_{1}, A_{2}, \ldots A_{n} | \theta\right) f(\theta)}{P\left(A_{1}, A_{2}, \ldots, A_{n}\right)}
P(θ∣A1,A2,…,An)=P(A1,A2,…,An)P(A1,A2,…An∣θ)f(θ)
同样假设做了n次实验,有有k次值为1,有
P
(
A
1
,
A
2
,
…
A
n
∣
θ
)
=
θ
k
(
1
−
θ
)
n
−
k
P\left(A_{1}, A_{2}, \ldots A_{n} | \theta\right) = \theta^k(1-\theta)^{n-k}
P(A1,A2,…An∣θ)=θk(1−θ)n−k
有
P
(
θ
∣
A
1
,
A
2
,
…
,
A
n
)
∝
P
(
A
1
,
A
2
,
…
A
n
∣
θ
)
f
(
θ
)
∝
θ
a
+
k
−
1
(
1
−
θ
)
n
−
k
+
b
−
1
P\left(\theta | A_{1}, A_{2}, \ldots, A_{n}\right)\propto{P\left(A_{1}, A_{2}, \ldots A_{n} | \theta\right) f(\theta)}\propto\theta^{a+k-1}(1-\theta)^{n-k+b-1}
P(θ∣A1,A2,…,An)∝P(A1,A2,…An∣θ)f(θ)∝θa+k−1(1−θ)n−k+b−1
加上标准化,可以得到后验分布符合
β
(
a
+
k
,
n
−
k
+
b
)
\beta(a+k,n-k+b)
β(a+k,n−k+b)分布。
即
P
(
θ
∣
A
1
,
A
2
,
…
,
A
n
)
=
Γ
(
a
+
b
+
n
)
Γ
(
a
+
k
)
+
Γ
(
b
+
n
−
k
)
θ
a
+
k
−
1
(
1
−
θ
)
n
−
k
+
b
−
1
P\left(\theta | A_{1}, A_{2}, \ldots, A_{n}\right)=\frac{\Gamma(a+b+n)}{\Gamma(a+k)+\Gamma(b+n-k)}\theta^{a+k-1}(1-\theta)^{n-k+b-1}
P(θ∣A1,A2,…,An)=Γ(a+k)+Γ(b+n−k)Γ(a+b+n)θa+k−1(1−θ)n−k+b−1
P
(
A
=
1
)
P(A=1)
P(A=1)的值为上式的期望,即
a
+
k
a
+
b
+
n
\frac{a+k}{a+b+n}
a+b+na+k
(
β
(
a
,
b
)
\beta(a,b)
β(a,b)分布的期望为
a
a
+
b
\frac{a}{a+b}
a+ba)
习题1.2
题目:通过经验风险最小化推导极大似然估计.证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计.
答:在证明前先理一下概念
①损失函数为对数函数
L
(
y
i
,
f
(
x
i
)
)
=
−
log
P
(
y
i
∣
x
i
)
L\left(y_{i}, f\left(x_{i}\right)\right)=-\log P\left(y_{i} | x_{i}\right)
L(yi,f(xi))=−logP(yi∣xi)
② 经验风险最小化ERM是指,使得训练集的平均损失最小,即
R
e
m
p
(
f
)
=
min
f
∈
F
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
\begin{aligned} R_{e m p}(f) &=\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)\end{aligned}
Remp(f)=f∈FminN1i=1∑NL(yi,f(xi))
③极大似然估计MLE,一般似然函数定义为似然概率的乘积:
P
(
Y
∣
X
)
=
∏
i
=
1
N
P
(
y
i
∣
x
i
)
P(Y | X)=\prod_{i=1}^{N} P\left(y_{i} | x_{i}\right)
P(Y∣X)=∏i=1NP(yi∣xi)
为了便于分析,进行对数处理:
∑
i
=
1
N
log
P
(
y
i
∣
x
i
)
\sum_{i=1}^{N} \log P\left(y_{i} | x_{i}\right)
∑i=1NlogP(yi∣xi)
接下来将损失函数代入经验风险进行化简:
R
e
m
p
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
=
1
N
∑
i
=
1
N
−
log
P
(
y
i
∣
x
i
)
=
−
1
N
∑
i
=
1
N
log
P
(
y
i
∣
x
i
)
\begin{aligned} R_{e m p}(f) &=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) \\ &=\frac{1}{N} \sum_{i=1}^{N}-\log P\left(y_{i} | x_{i}\right) \\ &=-\frac{1}{N} \sum_{i=1}^{N} \log P\left(y_{i} | x_{i}\right) \end{aligned}
Remp(f)=N1i=1∑NL(yi,f(xi))=N1i=1∑N−logP(yi∣xi)=−N1i=1∑NlogP(yi∣xi)
最小化经验风险,即最大化
∑
i
=
1
N
log
P
(
y
i
∣
x
i
)
\sum_{i=1}^{N} \log P\left(y_{i} | x_{i}\right)
∑i=1NlogP(yi∣xi),即等价于极大似然估计。