DATE: 2016.9.22
贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。也就是说,贝叶斯分类器是最小错误率意义上的优化。目前研究较多的贝叶斯分类器主要有四种,分别是:Naive Bayes、TAN、BAN和GBN。
1、训练
和所有监督算法一样,贝叶斯分类器是利用样本进行训练的,每个样本包含了一个特征列表和对应的分类。假定我们要对一个分类器进行训练,使其能够正确的判断出:一个包含"python"的文档究竟是编程语言的,还是关于蛇的。
分类器记录了它迄今为止见过的所有特征,以及这些特征与某个特定分类相关的数字概率。分类器逐一接受样本的训练。
当经过某个样本的训练之后,分类器会更新该样本中特征与分类的概率,同时还会生成一个新的概率,即:在一篇属于某个分类的文档中,含有指定单词的概率。例如
从上表中我们可以看到,经过训练之后,