基于概率论的分类算法:朴素贝叶斯
1、核心思想:选择高概率对应的类别
如下图:
两类数据分布如下,用p1(x,y)表示数据点(x,y)属于类别1(图中圆点表示的类别)的概率,用p2(x,y)表示数据点(x,y)
属于类别2(图中三角形点表示的类别)的概率,那么对于一个新数据点(x,y),可以用下面的规则来判断他的类别:
1)如果p1(x,y) > p2(x,y),那么类别为1
2)如果p2(x,y) > p1(x,y),那么类别为2
也就是,我们会选择高概率对应的类别,这就是贝叶斯理论的核心思想
2、算法原理
贝叶斯条件概率准则(计算条件概率的方法)
已知条件p(X|C),得到p(C|X)的条件概率,条件概率基本概念读者执行补读下
使用贝叶斯条件概率准则(条件概率)分类
3、实例
以留言板分类为例,分类一个留言板是否友好,
找出单词的概率, 认为这些单词出现的概率是独立的(实际上并不是很准确,有些单词可能有相互依赖,但不影响算法),即独立
的特征概率,朴素贝叶斯的朴素来源这个,把特征简单认为相互独立的。
具体算法:
W为词向量,Ci为类别I。 p(Ci|w)是词向量W的类别I的概率。本章是类别两种类型,那么p(