设输入空间
χ
\chi
χ
⊆
\subseteq
⊆
R
n
R^{n}
Rn为n维向量的集合,输出空间为类标记集合
γ
\gamma
γ={
c
1
c_{1}
c1,
c
2
c_{2}
c2,…
c
k
c_{k}
ck,},输入为特征向量x
∈
\in
∈
χ
\chi
χ ,输出为类标记y
∈
\in
∈
γ
\gamma
γ。X是定义在输入空间
χ
\chi
χ 上的随机变量,X是定义在输出空间
γ
\gamma
γ上的随机变量。P(X,Y)是X和Y的联合概率分布。训练数据集T={(
x
1
x_{1}
x1,
y
1
y_{1}
y1),(
x
2
x_{2}
x2,
y
2
y_{2}
y2),…,(
x
N
x_{N}
xN,
y
N
y_{N}
yN)}由P(X,Y)独立同分布产生。
1、极大似然估计
样本的联合概率分布为
因此样本的对数似然函数为
首先看,此时对数似然函数的后一项相当于常数不考虑。由于
,所以由拉格朗日数乘法,
对
求偏导并令其等于零可得
利用条件两边求和可得,因此可得
的极大似然估计为
同理,利用条件写出另一个拉格朗日函数类似的方法可得
2、贝叶斯估计
对于的估计:设
t
i
t_{i}
ti为标签
c
i
c_{i}
ci出现的次数,
q
i
q_{i}
qi为标签
c
i
c_{i}
ci出现的概率,i=1,2,…,K。
显然样本服从多项分布:
由此可设q的先验分布为狄利克雷分布:
由此可得q的后验分布:
这也是个狄利克雷分布,用后验期望作为贝叶斯估计的值,则
类似,设
u
l
u_{l}
ul为当Y=
c
k
c_{k}
ck时X的第j个元素为
a
j
l
a_{jl}
ajl的次数,
r
l
r_{l}
rl为其发生的概率,l=1,2,…
S
j
S_{j}
Sj
同样样本服从多项分布:
r的先验分布为:
r的后验分布为:
所以:
参考文献:https://stats.stackexchange.com/questions/83203/laplace-smoothing-and-dirichlet-prior