生成模型和判别模型的区别:
生成模型:通过联合概率计算生成值的概率,模型表示为
P
(
Y
∣
X
)
=
P
(
X
,
Y
)
P
(
X
)
P(Y|X)=\frac{P(X,Y)}{P(X)}
P(Y∣X)=P(X)P(X,Y)
判别模型:直接计算生成值的概率,模型表示为
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)或者是
f
(
X
)
f(X)
f(X)
习题
1.1说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果,其中k次的结果为1,这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。
统计学习方法三要素:
要素1模型:伯努利模型
设取值为1的概率值
θ
\theta
θ,则k次观测结果为1的事件可描述为
P
(
x
1
,
x
2
.
.
.
x
n
∣
θ
)
=
θ
k
⋅
(
1
−
θ
)
(
n
−
k
)
P(x_1,x_2...x_n|\theta)=\theta^k\cdot(1-\theta)^{(n-k)}
P(x1,x2...xn∣θ)=θk⋅(1−θ)(n−k)
要素2策略:对数损失函数,损失函数为
−
l
o
g
P
(
x
1
,
x
2
.
.
.
x
n
∣
θ
)
-logP(x_1,x_2...x_n|\theta)
−logP(x1,x2...xn∣θ)
要素3算法:
极大似然估计:
a
r
g
m
a
x
θ
^
m
l
e
=
a
r
g
m
a
x
θ
(
l
o
g
P
(
x
1
,
x
2
.
.
.
x
n
∣
θ
)
)
=
a
r
g
m
a
x
θ
(
k
l
o
g
θ
+
(
n
−
k
)
l
o
g
(
1
−
θ
)
)
argmax\hat{\theta}_{mle}=argmax\theta (logP(x_1,x_2...x_n|\theta))=argmax\theta(klog\theta+(n-k)log(1-\theta))
argmaxθ^mle=argmaxθ(logP(x1,x2...xn∣θ))=argmaxθ(klogθ+(n−k)log(1−θ)) (1)
对公式1求极值:
k
θ
−
n
−
k
1
−
θ
=
0
\frac{k}{\theta}-\frac{n-k}{1-\theta}=0
θk−1−θn−k=0
得到概率
θ
=
k
n
\theta=\frac{k}{n}
θ=nk
贝叶斯估计:
P
(
θ
∣
x
1
,
x
2
.
.
.
x
n
)
=
P
(
x
1
,
x
2
.
.
.
x
n
∣
θ
)
⋅
P
(
θ
)
P
(
x
1
,
x
2
.
.
.
x
n
)
P(\theta|x_1,x_2...x_n)=\frac{P(x_1,x_2...x_n|\theta)\cdot P(\theta)}{P(x_1,x_2...x_n)}
P(θ∣x1,x2...xn)=P(x1,x2...xn)P(x1,x2...xn∣θ)⋅P(θ)
假设参数
θ
\theta
θ服从参数为a,b的Beta分布,
P
(
θ
)
=
Γ
(
a
+
b
)
Γ
(
a
)
⋅
Γ
(
b
)
⋅
θ
(
a
−
1
)
⋅
(
1
−
θ
)
(
b
−
1
)
P(\theta)=\frac{\Gamma(a+b)}{\Gamma(a)\cdot \Gamma(b)}\cdot \theta^{(a-1)}\cdot (1-\theta)^{(b-1)}
P(θ)=Γ(a)⋅Γ(b)Γ(a+b)⋅θ(a−1)⋅(1−θ)(b−1)
a
r
g
m
a
x
θ
^
m
l
e
=
a
r
g
m
a
x
θ
(
P
(
θ
∣
x
1
,
x
2
.
.
.
x
n
)
)
=
a
r
g
m
a
x
θ
(
P
(
x
1
,
x
2
.
.
.
x
n
∣
θ
)
⋅
P
(
θ
)
)
=
a
r
g
m
a
x
θ
(
l
o
g
(
θ
(
a
+
k
−
1
)
⋅
(
1
−
θ
)
(
b
+
n
−
k
−
1
)
)
)
argmax\hat{\theta}_{mle}=argmax\theta(P(\theta|x_1,x_2...x_n))=argmax\theta(P(x_1,x_2...x_n|\theta)\cdot P(\theta))=argmax\theta(log(\theta^{(a+k-1)}\cdot (1-\theta)^{(b+n-k-1)} ))
argmaxθ^mle=argmaxθ(P(θ∣x1,x2...xn))=argmaxθ(P(x1,x2...xn∣θ)⋅P(θ))=argmaxθ(log(θ(a+k−1)⋅(1−θ)(b+n−k−1))) (2)
对公式2求极值,得到
θ
=
k
+
a
−
1
n
+
a
+
b
−
2
\theta=\frac{k+a-1}{n+a+b-2}
θ=n+a+b−2k+a−1
1.2通过经验风险最小化推导极大似然估计。证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。
R
e
m
p
(
f
^
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
^
(
x
i
)
)
=
−
1
N
∑
i
=
1
N
P
(
y
i
∣
x
i
)
R_{emp}(\hat f)=\frac{1}{N}\sum_{i=1}^N L(y_i,\hat f(x_i))=-\frac{1}{N}\sum_{i=1}^N P(y_i|x_i)
Remp(f^)=N1∑i=1NL(yi,f^(xi))=−N1∑i=1NP(yi∣xi)
R
e
m
p
(
f
^
)
R_{emp}(\hat f)
Remp(f^)最小化,即
∑
i
=
1
N
P
(
y
i
∣
x
i
)
\sum_{i=1}^N P(y_i|x_i)
∑i=1NP(yi∣xi) 最大化;极大似然估计即
∏
i
=
1
N
P
(
y
i
∣
x
i
)
\prod_{i=1}^N P(y_i|x_i)
∏i=1NP(yi∣xi) ,两者等价