前言:本系列习题系笔者主观完成,一家之言难免有错误之处
持续更新中…
第一章
先说极大似然估计(多参数可以参考极大似然估计)。设X1,X2,…Xn是来自
X
X
X的样本,则X1,X2,…Xn的联合分布律为:
∏
i
=
1
n
p
(
x
i
;
θ
)
\prod_{i=1}^n p(x_i;\theta)
i=1∏np(xi;θ)
其中
x
1
,
.
.
.
x
i
x_1,...x_i
x1,...xi为X1,…Xn中的取值,即实例(instance),
θ
\theta
θ是参数(如高斯分布中的均值和方差). 则事件{
X
1
=
x
1
,
.
.
.
X
n
=
x
n
X_1=x_1,...X_n=x_n
X1=x1,...Xn=xn}发生的概率为:
L
(
θ
)
=
L
(
x
1
,
x
2
,
.
.
.
x
n
;
θ
)
=
∏
i
=
1
n
p
(
x
i
;
θ
)
;
θ
∈
Θ
L(\theta)=L(x_1,x_2,...x_n;\theta)=\prod_{i=1}^np(x_i;\theta); \theta\in\Theta
L(θ)=L(x1,x2,...xn;θ)=i=1∏np(xi;θ);θ∈Θ
这里
Θ
\Theta
Θ是
θ
\theta
θ的参数空间,即
θ
\theta
θ所有可能的取值都在这里面。而极大似然估计的目的即是要固定样本
X
X
X不变下找到
Θ
\Theta
Θ中的
θ
=
θ
^
\theta=\hat\theta
θ=θ^使得似然函数
L
(
θ
)
L(\theta)
L(θ)最大,并用
θ
^
\hat\theta
θ^作为参数
θ
\theta
θ的估计值。通俗地说:因为联合分布律表示事件发生的概率,我们的目的是要找到某个参数使得事件发生的可能性最大,这就是极大似然估计。因此
θ
=
arg max
L
(
θ
)
=
arg max
∏
i
=
1
n
p
(
x
i
;
θ
)
\theta=\text{arg max}L(\theta)=\text{arg max}\prod_{i=1}^np(x_i;\theta)
θ=arg maxL(θ)=arg maxi=1∏np(xi;θ)上面的式子即是极大似然估计的目的。对于数据集{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
(
x
n
,
y
n
)
(x_1,y_1),(x_2,y_2),...(x_n,y_n)
(x1,y1),(x2,y2),...(xn,yn)},则目的为:
θ
=
arg
max
p
(
y
1
,
y
2
,
.
.
.
y
n
∣
x
1
,
x
2
,
.
.
.
x
n
;
θ
)
\theta=\arg \max p(y_1,y_2,...y_n|x_1,x_2,...x_n;\theta)
θ=argmaxp(y1,y2,...yn∣x1,x2,...xn;θ)表示给定数据集
X
X
X,找到参数
θ
\theta
θ使得
Y
Y
Y出现的概率最大。值得注意的是,这里的
Y
Y
Y是数据集里的label,所以也可以说是:令样本属于其真实标记的概率越大越好。(《机器学习》p59中间)。如此得到的参数即是使得训练误差最小时对应的参数。
需要注意到的是
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
.
.
.
(x_1,y_1),(x_2,y_2)...
(x1,y1),(x2,y2)...是独立同分布(i.i.d),即表示数据集服从同一个未知潜在的分布
χ
\chi
χ,且各个feature之间是独立的。此时有:
p
(
y
1
,
y
2
.
.
.
y
n
∣
x
1
,
x
2
,
.
.
.
x
n
;
θ
)
=
p
(
y
1
,
y
2
,
.
.
.
y
n
,
x
1
,
x
2
,
.
.
.
x
n
;
θ
)
p
(
x
1
,
x
2
,
.
.
.
x
n
;
θ
)
=
p
(
y
1
,
x
1
;
θ
)
p
(
y
2
,
x
2
;
θ
)
.
.
.
p
(
y
n
,
x
n
;
θ
)
p
(
x
1
;
θ
)
p
(
x
2
;
θ
)
.
.
.
p
(
x
n
;
θ
)
p(y_1,y_2...y_n|x_1,x_2,...x_n;\theta)=\frac{p(y_1,y_2,...y_n,x_1,x_2,...x_n;\theta)}{p(x_1,x_2,...x_n;\theta)}=\frac{p(y_1,x_1;\theta)p(y_2,x_2;\theta)...p(y_n,x_n;\theta)}{p(x_1;\theta)p(x_2;\theta)...p(x_n;\theta)}
p(y1,y2...yn∣x1,x2,...xn;θ)=p(x1,x2,...xn;θ)p(y1,y2,...yn,x1,x2,...xn;θ)=p(x1;θ)p(x2;θ)...p(xn;θ)p(y1,x1;θ)p(y2,x2;θ)...p(yn,xn;θ)上式子后边可以进一步简化为:
p
(
y
1
,
x
1
;
θ
)
p
(
x
1
;
θ
)
p
(
y
2
,
x
2
;
θ
)
p
(
x
2
;
θ
)
.
.
.
p
(
y
n
,
x
n
;
θ
)
p
(
x
n
;
θ
)
=
p
(
y
1
∣
x
1
;
θ
)
.
.
.
p
(
y
n
∣
x
n
;
θ
)
=
∏
i
=
1
n
p
(
y
i
∣
x
i
;
θ
)
\frac{p(y_1,x_1;\theta)}{p(x1;\theta)}\frac{p(y_2,x_2;\theta)}{p(x_2;\theta)}...\frac{p(y_n,x_n;\theta)}{p(x_n;\theta)}=p(y_1|x_1;\theta)...p(y_n|x_n;\theta)=\prod_{i=1}^np(y_i|x_i;\theta)
p(x1;θ)p(y1,x1;θ)p(x2;θ)p(y2,x2;θ)...p(xn;θ)p(yn,xn;θ)=p(y1∣x1;θ)...p(yn∣xn;θ)=i=1∏np(yi∣xi;θ)
现在我们开始考虑经验风险最小化问题。
模型是条件概率分布,损失函数是对数损失函数。则empirical risk为:
R
e
m
p
=
1
N
∑
i
=
1
N
(
−
log
p
(
y
i
∣
x
i
)
)
=
−
1
N
log
(
∏
i
=
1
N
p
(
y
i
∣
x
i
)
)
R_{emp}=\frac{1}{N}\sum_{i=1}^N(-\text{log}~p(y_i|x_i))=-\frac{1}{N}\log (\prod_{i=1}^Np(y_i|x_i))
Remp=N1i=1∑N(−log p(yi∣xi))=−N1log(i=1∏Np(yi∣xi))
所以
min
R
e
m
p
=
max
log
(
∏
i
=
1
N
p
(
y
i
∣
x
i
)
)
=
max
∏
i
=
1
N
p
(
y
i
∣
x
i
)
\min R_{emp}=\max\log(\prod_{i=1}^Np(y_i|x_i))=\max\prod_{i=1}^Np(y_i|x_i)
minRemp=maxlog(i=1∏Np(yi∣xi))=maxi=1∏Np(yi∣xi)即
θ
=
arg
max
∏
i
=
1
N
p
(
y
i
∣
x
i
;
θ
)
\theta=\arg \max \prod_{i=1}^Np(y_i|x_i;\theta)
θ=argmaxi=1∏Np(yi∣xi;θ)
所以两者是等价的。
证毕!
参考文献:
1.《概率论与数理统计》P152 最大似然估计法
2.《高等数学》(物理类川大)第三册p245贝叶斯公式
3. 极大似然估计)