贝叶斯定理
https://www.matongxue.com/madocs/301/
例子:
开车的时候,如果前面的挡风玻璃坏了,那我们怎么判断什么时候右转,
已知这条道路
所我们可以通过后视镜观察后面车的动向居然是否右转
新的信息出现了,此时如果右转,错误的概率就比之前小很多。这就是贝叶斯定理所阐述的思考方法。
数学描述
本质理解
贝叶斯与人脑机制类似
先验概率 、后验概率
-
先验概率是 以全事件为背景下,A事件发生的概率,P(A|Ω)
全事件一般是统计获得的,所以称为先验概率,没有实验前的概率 -
后验概率是 以新事件B为背景下,A事件发生的概率, P(A|B)
新事件一般是实验,如试验B,此时的事件背景从全事件变成了B,该事件B可能对A的概率有影响,那么需要对A现在的概率进行一个修正,从P(A|Ω)变成 P(A|B),所以称 P(A|B)为后验概率,也就是试验(事件B发生)后的概率
朴素贝叶斯分类算法
- 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法
核心算法:
例子分析
给定数据
问题
- 现在给我们的问题是,如果一对男女朋友,男生想女生求婚,男生的四个特点分别是不帅,性格不好,身高矮,不上进,请你判断一下女生是嫁还是不嫁?
转化为数学公式
成立条件
- 这个等式成立的条件需要特征之间相互独立。这也就是为什么朴素贝叶斯分类有朴素一词的来源,朴素贝叶斯算法是假设各个特征之间相互独立,那么这个等式就成立了!
为什么需要假设特征之间相互独立?
- 如果特征不独立,我们这个例子有4个特征,其中帅包括{帅,不帅},性格包括{不好,好,爆好},身高包括{高,矮,中},上进包括{不上进,上进},那么四个特征的联合概率分布总共是4维空间,总个数为233*2=36个。现实情况往往更复杂,这样我们无法通过样例来统计出概率
- 而独立的条件下,上述公式就可以拆成分开连乘形式
这样子就可以根据上面的表格求出各个条件概率代入计算
朴素贝叶斯分类的优缺点
-
优点:
- 算法逻辑简单,易于实现
- 分类过程中时空开销小
-
缺点:
- 理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。
-
而在属性相关性较小时,朴素贝叶斯性能最为良好。对于这一点,有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。