概率图模型分为 贝叶斯网络(Bayesian Network)和 马尔可夫网络(Markov
Network)两大类。
贝叶斯网络可以用一个 有向图结构表示,如 朴素贝叶斯模型、隐马尔可夫模型、主题模型。
马尔可夫网络可以表示成一个 无向图的网络结构,如 最大熵模型、条件随机场。
朴素贝叶斯网络的图表示
概率图中,每个节点的概率可以表示为: P(当前节点|它的父节点) ,写出联合概率分布:如图中所示:
条件独立性
朴素贝叶斯算法
给定数据样本 x 时 , 其数据类别为 y j yj yj的概率:即 后验概率 P ( y j ∣ x ) P(y_j|x) P(yj∣x), 它反映了在看到数据样本x后yj成立的置信度。
总结:从上面的公式看出,在数据样本x的条件下,判定某样本为
y
j
y_j
yj 类只取决于各个类条件概率的
p
(
x
i
∣
y
j
)
p(x_i|y_j)
p(xi∣yj)的乘积和
p
(
y
j
)
p(y_j)
p(yj)的乘积。
极大似然估计与贝叶斯估计的朴素贝叶斯概率估计公式
- 在上面的朴素贝叶斯算法中,要计算后验概率需要计算极大似然概率 P ( Y = c k ) P(Y=c_k) P(Y=ck), P ( X j = c k ∣ Y = c k ) P(X_j = c_k| Y=c_k) P(Xj=ck∣Y=ck),可以使用极大似然估计来求这两个概率(其实就是统计)。
- 贝叶斯估计是极大似然估计的优化,是为了解决某些类别频数为0时带来的 P ( Y = c k ) P(Y=c_k) P(Y=ck), P ( X j = c k ∣ Y = c k ) P(X_j = c_k| Y=c_k) P(Xj=ck∣Y=ck)为零的情况,因此引入了拉普拉斯平滑。
P ( Y = c k ) = ∑ i = 1 N I ( y i = c k ) + λ N + ∣ C ∣ λ P(Y=c_k) = \frac{\sum_{i=1}^{N} I(y_i=c_k)+\lambda}{N+ |C|\lambda} P(Y=ck)=N+∣C∣λ∑i=1NI(yi=ck)+λ
P ( X j = a j l ∣ Y = c k ) = ∑ i = 1 N I ( x i = a j l , y i = c k ) + λ ∑ i = 1 N I ( y i = c k ) + ∣ V ∣ λ P(Xj=a_{jl} |Y=c_k) = \frac{\sum_{i=1}^{N} I(x_i=a_{jl}, y_i=c_k)+\lambda}{\sum_{i=1}^{N} I(y_i=c_k)+ |V|\lambda} P(Xj=ajl∣Y=ck)=∑i=1NI(yi=ck)+∣V∣λ∑i=1NI(xi=ajl,yi=ck)+λ
优缺点
优点:简单,对一些短文本的分类效果不错。
缺点:条件独立性假设很强,再多数场景下分类精确度不高。
损失
与KNN算法一样,朴素贝叶斯算法的后验概率最大等价于最小化 0-1 损失的经验风险。