题目如下图:
伯努利模型:定义在取值为0与1的随机变量上的概率分布。
统计学习方法三要素:模型、策略、算法。
习题答案给出了使用极大似然估计与贝叶斯估计两种方法来估计伯努利实验中结果为1的概率的数学求解过程,但并没有明确说明两种方法的统计学习方法三要素。
极大似然估计详解
a
r
g
m
a
x
argmax
argmax函数解释
极大似然估计与贝叶斯估计背景知识
极大似然估计
核心思想:写出似然函数,使似然函数最大化(通过对数求导求解)
模型
似然函数:
l
(
θ
)
=
P
(
D
∣
θ
)
=
P
(
A
1
,
A
2
,
.
.
.
,
A
n
∣
θ
)
=
∏
i
=
1
n
P
(
A
i
∣
θ
)
l(\theta)=P(D|\theta)=P(A_1,A_2,...,A_n|\theta)=\prod_{i=1}^{n}P(A_i|\theta)
l(θ)=P(D∣θ)=P(A1,A2,...,An∣θ)=i=1∏nP(Ai∣θ)
设
θ
^
\hat{\theta}
θ^为
θ
\theta
θ的极大似然估计量,即
θ
^
\hat{\theta}
θ^是参数空间中能使似然函数
l
(
θ
)
l(\theta)
l(θ)最大的
θ
\theta
θ值
策略
求使得概率最大的
θ
\theta
θ值,即求解极大似然函数:
θ
^
=
a
r
g
m
a
x
θ
l
(
θ
)
=
a
r
g
m
a
x
θ
∏
i
=
1
n
P
(
x
i
∣
θ
)
\hat{\theta}=arg\mathop{max}\limits_{\theta}l(\theta)=arg\mathop{max}\limits_{\theta}\prod\limits_{i=1}^nP(x_i|\theta)
θ^=argθmaxl(θ)=argθmaxi=1∏nP(xi∣θ)
算法
Step1: 写出似然函数,针对随机变量的分布模型得出概率公式
Step2: 使用对数求导法求解似然函数的导数
Step3: 求解使得导数为0的
θ
\theta
θ值
例题
针对习题1.1,伯努利模型的似然函数为
l
(
θ
)
=
∏
i
=
1
n
P
(
A
i
∣
θ
)
=
θ
k
(
1
−
θ
)
n
−
k
l(\theta)=\prod\limits_{i=1}^{n}P(A_i|\theta)=\theta^k(1-\theta)^{n-k}
l(θ)=i=1∏nP(Ai∣θ)=θk(1−θ)n−k
对数求导过程如下:
贝叶斯估计
核心思想:先写出似然函数;然后令似然函数的共轭函数为先验函数;最后由似然函数与先验函数求得后验函数。
模型
P
(
θ
∣
D
)
=
P
(
D
∣
θ
)
P
(
θ
)
P
(
D
)
P(\theta|D)=\frac{P(D|\theta)P(\theta)}{P(D)}
P(θ∣D)=P(D)P(D∣θ)P(θ)
其中
D
D
D表示数据,
θ
\theta
θ表示模型参数,
P
(
D
∣
θ
)
P(D|\theta)
P(D∣θ)是似然函数,
P
(
θ
)
P(\theta)
P(θ)是先验概率,
P
(
θ
∣
D
)
P(\theta|D)
P(θ∣D)是后验概率。
策略
后验概率最大化
算法
Step1:基于观测数据写出其概率密度分布
P
(
D
∣
θ
)
P(D|\theta)
P(D∣θ)
Step2:写出似然函数的共轭函数
P
(
θ
)
P(\theta)
P(θ)
Step3:计算后验概率(忽略分母)
P
(
θ
∣
D
)
=
P
(
D
∣
θ
)
P
(
θ
)
P(\theta|D)=P(D|\theta)P(\theta)
P(θ∣D)=P(D∣θ)P(θ)
Step4:通过对数求导法求得使后验概率最大的解