第1章统计学习方法概论
习题1.1
说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型 n n n次独立的数据生成结果,其中 k k k次的结果为1,这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。
解答:
解答思路:
- 写出伯努利模型;
- 写出伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素;
- 根据伯努利模型的极大似然估计,估计结果为1的概率;
- 根据伯努利模型的贝叶斯估计,估计结果为1的概率。
解答步骤:
第1步:伯努利模型
根据题意:伯努利模型是定义在取值为0与1的随机变量上的概率分布。
对于随机变量
X
X
X,则有:
P
(
X
=
1
)
=
p
P
(
X
=
0
)
=
1
−
p
P(X=1)=p \\ P(X=0)=1-p
P(X=1)=pP(X=0)=1−p
其中,
p
p
p为随机变量
X
X
X取值为1的概率,
1
−
p
1-p
1−p则为取0的概率。
由于随机变量
X
X
X只有0和1两个值,
X
X
X的概率分布,即伯努利模型可写为:
P
p
(
X
=
x
)
=
p
x
(
1
−
p
)
(
1
−
x
)
,
0
⩽
p
⩽
1
P_p(X=x)=p^x (1-p)^{(1-x)}, \quad 0 \leqslant p \leqslant 1
Pp(X=x)=px(1−p)(1−x),0⩽p⩽1
则伯努利模型的假设空间为:
F
=
{
P
∣
P
p
(
X
)
=
p
x
(
1
−
p
)
(
1
−
x
)
,
p
∈
[
0
,
1
]
}
\mathcal{F}=\{P|P_p(X)=p^x(1-p)^{(1-x)}, p\in [0,1] \}
F={P∣Pp(X)=px(1−p)(1−x),p∈[0,1]}
第2步:伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素
(1)极大似然估计
模型:伯努利模型
策略:经验风险最小化。极大似然估计,等价于当模型是条件概率分布、损失函数是对数损失函数时的经验风险最小化。
算法:极大化似然:
arg
max
p
L
(
p
∣
X
)
=
arg
max
p
P
(
X
∣
p
)
\displaystyle \mathop{\arg\max} \limits_{p} L(p|X)= \mathop{\arg\max} \limits_{p} P(X|p)
pargmaxL(p∣X)=pargmaxP(X∣p)
(2)贝叶斯估计
模型:伯努利模型
策略:结构风险最小化。贝叶斯估计中的最大后验概率估计,等价于当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时的结构风险最小化。
算法:最大化后验概率:
arg
max
p
π
(
p
∣
X
)
=
arg
max
p
P
(
X
∣
p
)
π
(
p
)
∫
P
(
X
∣
p
)
π
(
p
)
d
p
\displaystyle \mathop{\arg\max} \limits_{p} \pi (p|X)= \displaystyle \mathop{\arg\max} \limits_{p} \frac{P(X|p)\pi(p)}{\int P(X|p)\pi(p)dp}
pargmaxπ(p∣X)=pargmax∫P(X∣p)π(p)dpP(X∣p)π(p)
第3步:伯努利模型的极大似然估计
极大似然估计的一般步骤:
参考Wiki:https://en.wikipedia.org/wiki/Maximum_likelihood_estimation
- 写出随机变量的概率分布函数;
- 写出似然函数;
- 对似然函数取对数,得到对数似然函数,并进行化简;
- 对参数进行求导,并令导数等于0;
- 求解似然函数方程,得到参数的值。
对于伯努利模型
n
n
n次独立的数据生成结果,其中
k
k
k次的结果为1,可得似然函数为:
L
(
p
∣
X
)
=
P
(
X
∣
p
)
=
∏
i
=
1
n
P
(
x
(
i
)
∣
p
)
=
p
k
(
1
−
p
)
n
−
k
\begin{aligned} L(p|X) &= P(X|p) \\ &= \prod_{i=1}^{n} P(x^{(i)}|p) \\ &=p^k (1-p)^{n-k} \end{aligned}
L(p∣X)=P(X∣p)=i=1∏nP(x(i)∣p)=pk(1−p)n−k
对似然函数取对数,得到对数似然函数为:
log
L
(
p
∣
X
)
=
log
p
k
(
1
−
p
)
n
−
k
=
log
(
p
k
)
+
log
(
(
1
−
p
)
n
−
k
)
=
k
log
p
+
(
n
−
k
)
log
(
1
−
p
)
\begin{aligned} \log L(p|X) &= \log p^k (1-p)^{n-k} \\ &= \log(p^k) + \log\left( (1-p)^{n-k} \right) \\ &= k\log p + (n-k)\log (1-p) \end{aligned}
logL(p∣X)=logpk(1−p)n−k=log(pk)+log((1−p)n−k)=klogp+(n−k)log(1−p)
求解参数
p
p
p:
p
^
=
arg
max
p
L
(
p
∣
X
)
=
arg
max
p
[
k
log
p
+
(
n
−
k
)
log
(
1
−
p
)
]
\begin{aligned} \hat{p} &= \mathop{\arg\max} \limits_{p} L(p|X) \\ &= \mathop{\arg\max} \limits_{p} \left[ k\log p + (n-k)\log (1-p) \right] \end{aligned}
p^=pargmaxL(p∣X)=pargmax[klogp+(n−k)log(1−p)]
对参数
p
p
p求导,并求解导数为0时的
p
p
p值:
∂
log
L
(
p
)
∂
p
=
k
p
−
n
−
k
1
−
p
=
k
(
1
−
p
)
−
p
(
n
−
k
)
p
(
1
−
p
)
=
k
−
n
p
p
(
1
−
p
)
\begin{aligned} \frac{\partial \log L(p)}{\partial p} &= \frac{k}{p} - \frac{n-k}{1-p} \\ &= \frac{k(1-p) - p(n-k)}{p(1-p)} \\ &= \frac{k-np}{p(1-p)} \end{aligned}
∂p∂logL(p)=pk−1−pn−k=p(1−p)k(1−p)−p(n−k)=p(1−p)k−np
令
∂
log
L
(
p
)
∂
p
=
0
\displaystyle \frac{\partial \log L(p)}{\partial p} = 0
∂p∂logL(p)=0,从上式可得,
k
−
n
p
=
0
k-np=0
k−np=0,即
p
=
k
n
\displaystyle p=\frac{k}{n}
p=nk
所以
P
(
X
=
1
)
=
k
n
\displaystyle P(X=1)=\frac{k}{n}
P(X=1)=nk
第4步:伯努利模型的贝叶斯估计
解法一:求最大后验估计
贝叶斯估计(最大后验估计)的一般步骤:
参考Wiki:https://en.wikipedia.org/wiki/Maximum_a_posteriori_estimation
- 确定参数 θ \theta θ的先验概率 p ( θ ) p(\theta) p(θ)
- 根据样本集 D = { x 1 , x 2 , … , x n } D=\{ x_1, x_2, \ldots, x_n \} D={x1,x2,…,xn},计算似然函数 P ( D ∣ θ ) P(D|\theta) P(D∣θ): P ( D ∣ θ ) = ∏ i = 1 n P ( x i ∣ D ) \displaystyle P(D|\theta)=\prod_{i=1}^n P(x_i|D) P(D∣θ)=i=1∏nP(xi∣D)
- 利用贝叶斯公式,写出后验概率最大化公式:
arg max θ P ( θ ∣ D ) = arg max θ P ( D ∣ θ ) P ( θ ) ∫ Θ P ( D ∣ θ ) P ( θ ) d θ = arg max θ P ( D ∣ θ ) P ( θ ) \mathop{\arg\max} \limits_{\theta} P(\theta|D)=\mathop{\arg\max} \limits_{\theta} \frac{P(D|\theta)P(\theta)}{\displaystyle \int \limits_\Theta P(D|\theta) P(\theta) d \theta} = \mathop{\arg\max} \limits_{\theta} P(D|\theta)P(\theta) θargmaxP(θ∣D)=θargmaxΘ∫P(D∣θ)P(θ)dθP(D∣θ)P(θ)=θargmaxP(D∣θ)P(θ)- 利用求导,得到后验概率最大时的参数取值
对于伯努利模型的参数
p
p
p,根据贝叶斯估计,该参数也是随机变量。
假设
p
p
p的先验分布
π
(
p
)
\pi(p)
π(p)为均匀分布,则最大后验概率估计等价于极大似然估计。
一般在贝叶斯估计中,如果后验分布与先验分布属于同一分布簇(共轭分布),则称此先验分布为似然函数的共轭先验。
选取共轭先验有如下好处,例如:
(1)符合直观,先验分布和后验分布应该是相同形式的;
(2)可以给出后验分布的解析形式;
(3)可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。
伯努利分布的先验分布为Beta分布,则此处假设先验分布 π ( p ) \pi(p) π(p)为Beta分布。
补充知识:Beta分布
来源维基百科:https://zh.wikipedia.org/wiki/%CE%92%E5%88%86%E5%B8%83
Beta 分布(Beta distribution),是指一组定义在 ( 0 , 1 ) {\displaystyle (0,1)} (0,1)区间的连续概率分布,亦称Β分布。有两个参数 α , β > 0 \alpha, \beta>0 α,β>0。
概率密度函数: f ( x ; α , β ) = 1 B ( α , β ) x ( α − 1 ) ( 1 − x ) β − 1 \displaystyle f(x; \alpha, \beta)= \frac{1}{{\rm B}(\alpha, \beta)}x^{(\alpha-1)}(1-x)^{\beta-1} f(x;α,β)=B(α,β)1x(α−1)(1−x)β−1
其中 B ( α , β ) {\rm B}(\alpha, \beta) B(α,β)是Beta函数,亦称Β函数。 B ( α , β ) = ∫ 0 1 x α − 1 ( 1 − x ) β − 1 d x \displaystyle {\rm B}(\alpha, \beta) =\int _{0}^{1} x^{\alpha-1}(1-x)^{\beta-1}dx B(α,β)=∫01xα−1(1−x)β−1dx
随机变量 X X X服从参数为 α , β \alpha, \beta α,β的Beta分布记作: X ∼ B e ( α , β ) X \sim {\rm Be}(\alpha, \beta) X∼Be(α,β)
期望: E ( X ) = α α + β \displaystyle {\rm E}(X) = \frac{\alpha}{\alpha+\beta} E(X)=α+βα
与均匀分布关系:当 α = 1 , β = 1 \alpha=1, \beta=1 α=1,β=1时,Beta分布就是一个均匀分布
p
p
p的先验分布为:
π
(
p
)
=
1
B
(
α
,
β
)
p
(
α
−
1
)
(
1
−
p
)
β
−
1
\displaystyle \pi (p) = \frac{1}{B(\alpha, \beta)} p^{(\alpha-1)} (1-p)^{\beta-1}
π(p)=B(α,β)1p(α−1)(1−p)β−1
似然函数与第3步相同:
L
(
p
∣
X
)
=
P
(
X
∣
p
)
=
∏
i
=
1
n
P
(
x
(
i
)
∣
p
)
=
p
k
(
1
−
p
)
n
−
k
\begin{aligned} L(p|X) &= P(X|p) \\ &= \prod_{i=1}^{n} P(x^{(i)}|p) \\ &=p^k (1-p)^{n-k} \end{aligned}
L(p∣X)=P(X∣p)=i=1∏nP(x(i)∣p)=pk(1−p)n−k
最大化后验概率,求解参数
p
p
p:
p
^
=
arg
max
p
P
(
X
∣
p
)
π
(
p
)
∫
P
(
X
∣
p
)
π
(
p
)
d
p
=
arg
max
p
P
(
X
∣
p
)
π
(
p
)
=
arg
max
p
p
k
(
1
−
p
)
n
−
k
1
B
(
α
,
β
)
p
(
α
−
1
)
(
1
−
p
)
β
−
1
=
arg
max
p
1
B
(
α
,
β
)
p
k
+
α
−
1
(
1
−
p
)
n
−
k
+
β
−
1
\begin{aligned} \hat{p} &= \mathop{\arg\max} \limits_{p} \frac{P(X|p)\pi(p)}{\displaystyle \int P(X|p)\pi(p)dp} \\ &= \mathop{\arg\max} \limits_{p} P(X|p)\pi(p) \\ &= \mathop{\arg\max} \limits_{p} p^k (1-p)^{n-k} \frac{1}{B(\alpha, \beta)} p^{(\alpha-1)} (1-p)^{\beta-1} \\ &= \mathop{\arg\max} \limits_{p} \frac{1}{B(\alpha, \beta)} p^{k+\alpha-1} (1-p)^{n-k+\beta-1} \end{aligned}
p^=pargmax∫P(X∣p)π(p)dpP(X∣p)π(p)=pargmaxP(X∣p)π(p)=pargmaxpk(1−p)n−kB(α,β)1p(α−1)(1−p)β−1=pargmaxB(α,β)1pk+α−1(1−p)n−k+β−1
令
g
(
p
)
=
1
B
(
α
,
β
)
p
k
+
α
−
1
(
1
−
p
)
n
−
k
+
β
−
1
\displaystyle g(p) = \frac{1}{B(\alpha, \beta)} p^{k+\alpha-1} (1-p)^{n-k+\beta-1}
g(p)=B(α,β)1pk+α−1(1−p)n−k+β−1,对函数
g
(
p
)
g(p)
g(p)先取对数,再对
p
p
p求导,得
∂
log
g
(
p
)
∂
p
=
1
B
(
α
,
β
)
(
k
+
α
−
1
p
−
n
−
k
+
β
−
1
1
−
p
)
\frac{\partial \log g(p)}{\partial p} = \frac{1}{B(\alpha, \beta)} \left( \frac{k+\alpha-1}{p} - \frac{n-k+\beta-1}{1-p} \right)
∂p∂logg(p)=B(α,β)1(pk+α−1−1−pn−k+β−1)
令上式等于0,得 p ^ = k + α − 1 n + α + β − 2 \displaystyle \hat{p} = \frac{k+\alpha-1}{n+\alpha+\beta-2} p^=n+α+β−2k+α−1,其中 α , β \alpha, \beta α,β为beta分布的参数。
所以最大后验概率估计得到 P ( X = 1 ) = k + α − 1 n + α + β − 2 \displaystyle P(X=1)=\frac{k+\alpha-1}{n+\alpha+\beta-2} P(X=1)=n+α+β−2k+α−1
解法二:求后验概率分布的期望
后验概率分布的期望求解
参考Wiki(中文):https://zh.wikipedia.org/wiki/%E6%9C%80%E5%A4%A7%E5%90%8E%E9%AA%8C%E6%A6%82%E7%8E%87
参考Wiki(英文):https://en.wikipedia.org/wiki/Bayes_estimator
贝叶斯估计中的最大后验概率估计,得到的是模型参数 θ \theta θ这个随机变量的后验分布的众数,通常被认为是点估计。而贝叶斯方法的特点是使用分布来总结数据和得出推论,因此贝叶斯方法倾向于得到后验均值或中值,以及可信区间。
贝叶斯估计,利用后验分布的期望(均值)作为参数的估计值的方法,前两步与最大后验概率估计相同,第3、4步如下:
3. 利用贝叶斯公式,求 θ \theta θ的后验概率: P ( θ ∣ D ) = P ( D ∣ θ ) P ( θ ) ∫ Θ P ( D ∣ θ ) P ( θ ) d θ \displaystyle P(\theta|D)=\frac{P(D|\theta)P(\theta)}{\displaystyle \int \limits_\Theta P(D|\theta) P(\theta) d \theta} P(θ∣D)=Θ∫P(D∣θ)P(θ)dθP(D∣θ)P(θ)
4. 计算后验概率分布参数 θ \theta θ的期望,并求出贝叶斯估计值: θ ^ = ∫ Θ θ ⋅ P ( θ ∣ D ) d θ \displaystyle \hat{\theta}=\int \limits_{\Theta} \theta \cdot P(\theta|D) d \theta θ^=Θ∫θ⋅P(θ∣D)dθ
已知似然函数和参数
p
p
p的先验分布,参数
p
p
p的后验分布为:
P
(
p
∣
X
)
=
P
(
X
∣
p
)
π
(
p
)
∫
P
(
X
∣
p
)
π
(
p
)
d
p
=
1
B
(
α
,
β
)
p
k
+
α
−
1
(
1
−
p
)
n
−
k
+
β
−
1
∫
1
B
(
α
,
β
)
p
k
+
α
−
1
(
1
−
p
)
n
−
k
+
β
−
1
d
p
=
p
k
+
α
−
1
(
1
−
p
)
n
−
k
+
β
−
1
∫
p
k
+
α
−
1
(
1
−
p
)
n
−
k
+
β
−
1
d
p
=
1
B
(
k
+
α
,
n
−
k
+
β
)
p
k
+
α
−
1
(
1
−
p
)
n
−
k
+
β
−
1
∼
Be
(
k
+
α
,
n
−
k
+
β
)
\begin{aligned} P(p|X) &= \frac{P(X|p)\pi(p)}{\displaystyle \int P(X|p)\pi(p)dp} \\ &=\frac{\displaystyle \frac{1}{B(\alpha, \beta)} p^{k+\alpha-1} (1-p)^{n-k+\beta-1}}{\displaystyle \int \frac{1}{B(\alpha, \beta)} p^{k+\alpha-1} (1-p)^{n-k+\beta-1} dp} \\ &=\frac{ p^{k+\alpha-1} (1-p)^{n-k+\beta-1}}{\displaystyle \int p^{k+\alpha-1} (1-p)^{n-k+\beta-1} dp} \\ &=\frac{1}{B(k+\alpha, n-k+\beta)} p^{k+\alpha-1} (1-p)^{n-k+\beta-1} \\ &\sim \text{Be}(k+\alpha, n-k+\beta) \\ \end{aligned}
P(p∣X)=∫P(X∣p)π(p)dpP(X∣p)π(p)=∫B(α,β)1pk+α−1(1−p)n−k+β−1dpB(α,β)1pk+α−1(1−p)n−k+β−1=∫pk+α−1(1−p)n−k+β−1dppk+α−1(1−p)n−k+β−1=B(k+α,n−k+β)1pk+α−1(1−p)n−k+β−1∼Be(k+α,n−k+β)
后验概率分布的期望:
E
p
(
p
∣
X
)
=
E
p
(
B
e
(
k
+
α
,
n
−
k
+
β
)
)
=
k
+
α
(
k
+
α
)
+
(
n
−
k
+
β
)
=
k
+
α
n
+
α
+
β
\begin{aligned} E_p(p|X)&=E_p({\rm Be}(k+\alpha, n-k+\beta)) \\ &=\frac{k+\alpha}{(k+\alpha)+(n-k+\beta)} \\ &=\frac{k+\alpha}{n+\alpha+\beta} \end{aligned}
Ep(p∣X)=Ep(Be(k+α,n−k+β))=(k+α)+(n−k+β)k+α=n+α+βk+α
则以参数的后验概率分布的期望作为贝叶斯估计的参数值:
p
^
=
k
+
α
n
+
α
+
β
\displaystyle \hat{p}=\frac{k+\alpha}{n+\alpha+\beta}
p^=n+α+βk+α
所以贝叶斯估计得到 P ( X = 1 ) = k + α n + α + β \displaystyle P(X=1)=\frac{k+\alpha}{n+\alpha+\beta} P(X=1)=n+α+βk+α
习题1.2
通过经验风险最小化推导极大似然估计。证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。
解答:
解答思路:
- 根据经验风险最小化定义,写出目标函数;
- 根据对数损失函数,对目标函数进行整理;
- 根据似然函数定义和极大似然估计的一般步骤(计算时需要取对数),可得到结论。
解答步骤:
假设模型的条件概率分布是
P
θ
(
Y
∣
X
)
P_{\theta}(Y|X)
Pθ(Y∣X),样本集
D
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
…
,
(
x
N
,
y
N
)
}
D=\{(x_1,y_1),(x_2,y_2),\ldots,(x_N,y_N)\}
D={(x1,y1),(x2,y2),…,(xN,yN)},根据书中第17页公式(1.12),对数损失函数为:
L
(
Y
,
P
(
Y
∣
X
)
)
=
−
log
P
(
Y
∣
X
)
L(Y,P(Y|X)) = -\log P(Y|X)
L(Y,P(Y∣X))=−logP(Y∣X)
根据书中第18页公式(1.15),按照经验风险最小化求最优模型就是求解最优化问题:
min
f
∈
F
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
\min \limits_{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^N L(y_i, f(x_i))
f∈FminN1i=1∑NL(yi,f(xi))
结合上述两个式子,可得经验风险最小化函数:
arg
min
f
∈
F
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
=
arg
min
f
∈
F
1
N
∑
D
[
−
log
P
(
Y
∣
X
)
]
=
arg
max
f
∈
F
1
N
∑
D
log
P
(
Y
∣
X
)
=
arg
max
f
∈
F
1
N
log
∏
D
P
(
Y
∣
X
)
=
1
N
arg
max
f
∈
F
log
∏
D
P
(
Y
∣
X
)
\begin{aligned} \mathop{\arg\min} \limits_{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^N L(y_i, f(x_i)) &= \mathop{\arg\min} \limits_{f \in \mathcal{F}} \frac{1}{N} \sum_D [-\log P(Y|X)] \\ &= \mathop{\arg\max} \limits_{f \in \mathcal{F}} \frac{1}{N} \sum_D \log P(Y|X) \\ &= \mathop{\arg\max} \limits_{f \in \mathcal{F}} \frac{1}{N} \log \prod_D P(Y|X) \\ &= \frac{1}{N} \mathop{\arg\max} \limits_{f \in \mathcal{F}} \log \prod_D P(Y|X) \end{aligned}
f∈FargminN1i=1∑NL(yi,f(xi))=f∈FargminN1D∑[−logP(Y∣X)]=f∈FargmaxN1D∑logP(Y∣X)=f∈FargmaxN1logD∏P(Y∣X)=N1f∈FargmaxlogD∏P(Y∣X)
根据似然函数定义:
L
(
θ
)
=
∏
D
P
θ
(
Y
∣
X
)
\displaystyle L(\theta)=\prod_D P_{\theta}(Y|X)
L(θ)=D∏Pθ(Y∣X),以及极大似然估计的一般步骤,可得:
arg
min
f
∈
F
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
=
1
N
arg
max
f
∈
F
log
L
(
θ
)
\mathop{\arg\min} \limits_{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^N L(y_i, f(x_i)) = \frac{1}{N} \mathop{\arg\max} \limits_{f \in \mathcal{F}} \log L(\theta)
f∈FargminN1i=1∑NL(yi,f(xi))=N1f∈FargmaxlogL(θ)
即经验风险最小化等价于极大似然估计,得证。