贝叶斯分类决策规则:依据计算得到的后验概率对样本进行归类
条件:先验概率和类条件概率已知。
因此只要知道
P
(
w
j
)
P(w_j)
P(wj)和
P
(
x
∣
w
j
)
P(x|w_j)
P(x∣wj)就可以设计出贝叶斯分类器,而
P
(
w
j
)
P(w_j)
P(wj)和
P
(
x
∣
w
j
)
P(x|w_j)
P(x∣wj)并不能预先知道,需要用样本集中的信息去进行估计,所以贝叶斯分类器的训练就是通过样本集中去估计
P
(
w
j
)
P(w_j)
P(wj)和
P
(
x
∣
w
j
)
P(x|w_j)
P(x∣wj)。
先验概率
P
(
w
j
)
P(w_j)
P(wj)不是一个分布函数,只是一个值,表达了样本空间中,各个样本所占的比例。
P ( w j ) P(w_j) P(wj)
- 当样本集数量足够多,且来自于样本空间的随机选取时,可以用比例来估计 P ( w j ) P(w_j) P(wj)(大数定理)
- 如果不是随机抽样的,那么就不能用占比来估计 P ( w j ) P(w_j) P(wj),这时可以假设 P ( w j ) P(w_j) P(wj)为 1 c \frac{1}{c} c1,c为样本类数。
- 把 P ( w j ) P(w_j) P(wj)不看做一个未知的常量,而看做一个概率分布,可以任意设定 P ( w j ) P(w_j) P(wj)的初值,在已知类条件概率的情况下,计算训练集中属于某一个类的所有样本的后验概率,然后将其数学期望来更新先验概率。
P ( x ∣ w j ) P(x|w_j) P(x∣wj)
P ( x ∣ w j ) P(x|w_j) P(x∣wj)是一个概率密度函数,需要与训练集中样本特征的分布情况进行估计,估计方法可以分为
参数估计
参数估计是先假设样本的概率密度具有某种确定的形式,比如正态分布、二项分布,然后用现有的样本,对分布的参数进行估计。常用的如下两种
极大似然估计
把用于估计的所有样本做为结果,把概率分布的参数作为条件,最有可能抽取到已知样本集中所有样本的概率分布参数,就是极大似然的参数,也就是我们能够得到的最优参数的估计值。如采用极大似然估计来估计类条件概率需要满足以下几项基本条件
- 类条件概率的分布形式是已知的: θ i \theta^i θi
- 训练集中第i类的所有样本: X i X^i Xi
- 训练集中属于第 i i i类的一个样本: x k ∈ X i x_k \in X^i xk∈Xi
样本集
X
i
X^i
Xi的
θ
i
\theta^i
θi似然函数:
p
(
X
i
∣
θ
i
)
=
∏
k
=
1
n
p
(
x
k
∣
θ
i
)
p(X^i|\theta^i)=\prod^n_{k=1}p(x_k|\theta^i)
p(Xi∣θi)=k=1∏np(xk∣θi)
以一维正态分布为例
极大似然估计是把待估计的参数看做是确定性的未知量,然后根据样本集的数据去求取该未知参数的最优估计值。
贝叶斯估计
把待估计参数看做是具有某种分布形式的随机变量。通过对
X
i
X^i
Xi类学习样本的观察,使概率密度分布
P
(
X
i
∣
θ
i
)
P(X^i|\theta^i)
P(Xi∣θi)转化为后验概率
P
(
θ
i
∣
X
i
)
P(\theta^i|X^i)
P(θi∣Xi)
,再通过求取后验概率的数学期望来获得
θ
i
\theta^i
θi的估计值。
非参数估计
不假设类的概率密度分布,直接用样本集中,直接用样本集中的信息,来估计样本的概率分布情况,非参数估计一般得到的是一个数值模型。当完成非参数估计后,可以通过数值计算来获得任何一个样本在某一个类别中出现的类条件概率值。