贝叶斯网络
一.朴素贝叶斯算法
这个,之前有简介,在这个简介当中,已经介绍了条件概率公式,全概率公式,以及(朴素)贝叶斯公式。
详细见:朴素贝叶斯算法
但是需要补充一些知识点:
1.朴素贝叶斯的推导
在之前的简介中,只是介绍了朴素贝叶斯公式之后,就直接用这个公式就套进了文本分类问题当中。但,严格来说,朴素贝叶斯算法,其实有一个表达式:
这个表达式怎么来的呢?
我们假设有一组数据集D = {d1, d2, ……,dn},对应样本有如下特征:X= {x1, x2, x3, ……, xd}。朴素贝叶斯算法本质上说,是做分类问题。我们假设这些个样本属于m个类别:Y={y1, y2, ……, ym} ,朴素贝叶斯算法之所以称为“朴素“,是因为默认特征X当中,都是相互独立的。那么,很显然,Y发生的概率为P(Y)(这个,有一些资料里也说是Y的先验概率),那么在X发生的条件下,它的类别是Y的概率是P(Y|X)(这个在一些资料里面也称为,Y的后验概率)。那么,根据条件概率公式,我们知道:
同时,如果指定的类别已经给出,那么:
于是:
更进一步,我们把Y也开始进行拆分:
与此同时,不要忘了朴素贝叶斯到底是要干什么。朴素贝叶斯,其实是计算:当x已知的情况下,它的类别y到底是啥?即:P(y|x1, x2, x3, ……xd),而现实当中,由于拿到一组样本的时候,各个属性出现的情况其实已经摸索清楚了,即,上面这个式子的分母,一定是一个可以计算出来的定值。所以:我们最后只看分母就可以了。在计算过程中,分母越大,那么它最有可能是某个类别。所以才会有那个表达式。
2. 高斯朴素贝叶斯
即:特征X是服从高斯分布的:
3. 多项式分部朴素贝叶斯
即:特征X服从多项式分布。
二. 贝叶斯网络
1. 什么是贝叶斯网络
贝叶斯网络是一种概率图状模型,是贝叶斯算法的拓展。它与数据结构当中的有向图结合在一起。用于考察一组随机变量{X 1 ,X 2 …X n }及其n组条件概率分布
(Conditional Probability Distributions, CPD)的性质。在有向图中,前一个结点是发生的条件,后一个结点是结果。因此有些资料会说前一个是原因,后一个结果。但严格说来,不是很准确。
举一个最简单的例子:
响应的,如果一个有向图,各个结点之间都是连通的,且是无环图。(就像5个结点,有10条边,对应5个人握手问题这种的)。那么像这种的贝叶斯网络称为:全连接贝叶斯网络。如此一来,我们就有如下的表达式:
2. 贝叶斯网络的应用
贝叶斯网络在现实当中,其实应用很广泛,以下面这个为例:
(未完)