1.1
统计学习方法三要数:模型,策略,算法。
模型:伯努利模型,即定义在取值为0与1的随机变量上的概率分布。
策略:极大似然估计和贝叶斯估计的策略都是对数损失函数,只不过贝叶斯估计使用的是结构风险最小化。
算法:极大似然估计使用的算法是求取经验函数风险函数的最小值,贝叶斯估计所使用的算法是求取参数的后验分布,然后计算其期望。
定义B为取值为0或1的随机变量,并设B=1的概率是θ,即:
P
(
B
=
1
)
=
θ
,
P
(
B
=
0
)
=
1
−
θ
P(B=1)=\theta,P(B=0)=1-\theta
P(B=1)=θ,P(B=0)=1−θ
抽取n个独立同分布的随机变量
B
1
,
B
2
,
B
3
.
.
.
B
n
B_1,B_2,B_3...B_n
B1,B2,B3...Bn。使用极大似然估计求经验风险函数的极值点。
L
(
θ
)
=
∏
i
=
1
n
P
(
B
i
)
=
θ
k
(
1
−
θ
)
L(\theta ) = \prod\limits_{i = 1}^n {P({B_i}) = {\theta ^k}(1 - \theta )}
L(θ)=i=1∏nP(Bi)=θk(1−θ)
求对数:
log
(
L
(
θ
)
)
=
log
(
∏
i
=
1
n
P
(
B
i
)
)
=
log
(
θ
k
(
1
−
θ
)
n
−
k
)
=
k
log
(
θ
)
+
(
n
−
k
)
log
(
1
−
θ
)
\begin{array}{cccc} \log (L(\theta )) &=& \log (\prod\limits_{i = 1}^n {P({B_i}))} \\ &=& \log ({\theta ^k}{(1 - \theta )^{n - k}})\\ &=& k\log (\theta ) + (n - k)\log (1 - \theta ) \end{array}
log(L(θ))===log(i=1∏nP(Bi))log(θk(1−θ)n−k)klog(θ)+(n−k)log(1−θ)
令对数似然函数的导数为0:
∂
log
(
L
(
θ
)
)
∂
θ
=
k
θ
−
n
−
k
1
−
θ
=
0
\frac{{\partial \log (L(\theta ))}}{{\partial \theta }} = \frac{k}{\theta } - \frac{{n - k}}{{1 - \theta }} = 0
∂θ∂log(L(θ))=θk−1−θn−k=0
解之得:
θ
=
k
n
\theta=\frac{k}{n}
θ=nk
贝叶斯估计:
P
(
θ
∣
B
1
,
B
2
,
B
3
,
.
.
.
B
n
)
=
P
(
B
1
,
B
2
,
B
3
,
.
.
.
B
n
∣
θ
)
P
(
θ
)
P
(
B
1
,
B
2
,
B
3
,
.
.
.
B
n
)
P(\theta |{B_1},{B_2},{B_3},...{B_n}) = \frac{{P({B_1},{B_2},{B_3},...{B_n}|\theta )P(\theta )}}{{P({B_1},{B_2},{B_3},...{B_n})}}
P(θ∣B1,B2,B3,...Bn)=P(B1,B2,B3,...Bn)P(B1,B2,B3,...Bn∣θ)P(θ)
根据观察到的结果修正θ,也就是假设θ是随机变量,θ服从β分布,有很多个可能的取值,我们要取的值时在已知观察结果的条件下使θ出现概率最大的值。上式分母是不变的,求分子最大就可以。
θ
=
arg
max
θ
P
(
B
1
,
B
2
,
B
3
,
.
.
.
B
n
∣
θ
)
P
(
θ
)
=
arg
max
θ
∏
i
=
1
n
P
(
B
i
∣
θ
)
P
(
θ
)
=
arg
max
θ
θ
k
(
1
−
θ
)
n
−
k
θ
a
−
1
(
1
−
θ
)
b
−
1
=
k
+
(
a
−
1
)
n
+
(
a
−
1
)
+
(
b
−
1
)
\begin{array}{ccccc} \theta & = & \mathop {\arg \max }\limits_\theta P({B_1},{B_2},{B_3},...{B_n}|\theta )P(\theta )\\ & = & \mathop {\arg \max }\limits_\theta \prod\limits_{i = 1}^n {P({B_i}|\theta )P(\theta )} \\ & = & \mathop {\arg \max }\limits_\theta {\theta ^k}{(1 - \theta )^{n - k}}{\theta ^{a - 1}}{(1 - \theta )^{b - 1}}\\ & = & \frac{{k + (a - 1)}}{{n + (a - 1) + (b - 1)}} \end{array}
θ====θargmaxP(B1,B2,B3,...Bn∣θ)P(θ)θargmaxi=1∏nP(Bi∣θ)P(θ)θargmaxθk(1−θ)n−kθa−1(1−θ)b−1n+(a−1)+(b−1)k+(a−1)
其中a,b是β分布的参数
β
(
θ
;
a
,
b
)
=
θ
a
−
1
(
1
−
θ
)
b
−
1
c
\beta (\theta ;a,b) = \frac{{{\theta ^{a - 1}}{{(1 - \theta )}^{b - 1}}}}{c}
β(θ;a,b)=cθa−1(1−θ)b−1(其中c是一个常数),确定a,b之后就可以确定θ。
1.2
模型是条件概率分布:
P
θ
(
Y
,
X
)
P_\theta(Y,X)
Pθ(Y,X)
损失函数是对数损失函数:
L
(
Y
,
P
(
Y
∣
X
)
)
=
−
l
o
g
P
(
Y
∣
X
)
L(Y,P(Y|X))=-logP(Y|X)
L(Y,P(Y∣X))=−logP(Y∣X)
经验风险为:
R
e
m
p
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
=
1
N
∑
i
=
1
N
−
l
o
g
P
(
y
i
∣
x
i
)
=
−
1
N
∑
i
=
1
N
l
o
g
P
(
y
i
∣
x
i
)
\begin{array}{ccccc}R_{emp}(f) & = & \frac{1}{N}\sum\limits_{i=1}^N L(y_i,f(x_i))\\ & = & \frac{1}{N}\sum\limits_{i=1}^N-logP(y_i|x_i)\\&=&-\frac{1}{N}\sum\limits_{i=1}^NlogP(y_i|x_i) \end{array}
Remp(f)===N1i=1∑NL(yi,f(xi))N1i=1∑N−logP(yi∣xi)−N1i=1∑NlogP(yi∣xi)
最小化经验风险,即最小化
1
N
∑
i
=
1
N
−
l
o
g
P
(
y
i
∣
x
i
)
\frac{1}{N}\sum\limits_{i=1}^N-logP(y_i|x_i)
N1i=1∑N−logP(yi∣xi),即最大化
1
N
∑
i
=
1
N
l
o
g
P
(
y
i
∣
x
i
)
\frac{1}{N}\sum\limits_{i=1}^NlogP(y_i|x_i)
N1i=1∑NlogP(yi∣xi)即最大化极大似然估计。