目录
一 朴素贝叶斯简介
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。朴素贝叶斯是贝叶斯决策理论的一部分,所以本文首先介绍贝叶斯决策理论,然后我们通过实例来介绍最简单的一种贝叶斯分类:朴素贝叶斯。
二 贝叶斯决策理论
首先是条件概率公式:
如上图所示,P(A|B) 表示已知事件B发生的前提下,事件A发生的概率,用上图来说,就是AB交界那部分的面积与B的面积的比例,所以 ,同理 ,再整合全概率公式就可以得到贝叶斯公式了,全概率公式如下:
这里的事件组A需要满足一定的条件:
- 两 两两互斥
- ,则称事件组A是空间Ω的一个划分
那么贝叶斯公式如下:
其中 为后验概率, 为先验概率, 为条件概率。
贝叶斯决策就是利用贝叶斯理论进行决策分类,举个最简单的例子,假设有一组细胞,细胞分为正常细胞( 类)和异常细胞( 类),所以 。 和 称为先验概率,目前有几种特征( ),我们依据这几种特征来分析出哪些是正常细胞哪些是异常细胞,所以我们其实就是要算出 和 的大小,然后哪一个概率大就判定为哪一类细胞。结合贝叶斯公式,我们可以知道:
通过这个式子,我们可以看出,本来直接求 的问题转换成了求解 和 的问题,而这两个概率我们可以根据对训练集做统计就可以求出来。