朴素贝叶斯(Naive Bayesian)是最为广泛使用的分类方法,它以概率论为基础,是基于贝叶斯定理和特征条件独立假设的分类方法。
一、 概述
1.1 简介
朴素贝叶斯(Naive Bayesian)是基于贝叶斯定理和特征条件独立假设的分类方法,它通过特征计算分类的概率,选取概率大的情况进行分类,因此它是基于概率论的一种机器学习分类方法。因为分类的目标是确定的,所以也是属于监督学习。
Q1:什么是基于概率论的方法?
通过概率来衡量事件发生的可能性。概率论和统计学恰好是两个相反的概念,统计学是抽取部分样本进行统计来估算总体的情况,而概率论是通过总体情况来估计单个事件或者部分事情的发生情况。因此,概率论需要已知的数据去预测未知的事件。
例如,我们看到天气乌云密布,电闪雷鸣并阵阵狂风,在这样的天气特征(F)下,我们推断下雨的概率比不下雨的概率大,也就是 p(下雨)>p(不下雨) ,所以认为待会儿会下雨。这个从经验上看对概率进行判断。
而气象局通过多年长期积累的数据,经过计算,今天下雨的概率 p(下雨)=85%,p(不下雨)=15% ,同样的, p(下雨)>p(不下雨) ,因此今天的天气预报肯定预报下雨。这是通过一定的方法计算概率从而对下雨事件进行判断。
Q2:朴素贝叶斯,朴素在什么地方?
之所以叫朴素贝叶斯,因为它简单、易于操作,基于特征独立性假设,假设各个特征不会相互影响,这样就大大减小了计算概率的难度。
1.2 条件概率与贝叶斯定理
(1)概率论中几个基本概念
事件交和并:
A和B两个事件的交,指的是事件A和B同时出现,记为 A∩B ;
A和B两个事件的并,指的是事件A和事件B至少出现一次的情况,记为 A∪B 。
互补事件:事件A的补集,也就是事件A不发生的时候的事件,记为 Ac 。这个时候,要么A发生,要么 Ac 发生, P(A)+P(Ac)=1 。
条件概率(conditional probability):
某个事件发生时另外一个事件发生的概率,如事件B发生条件下事件A发生的概率:
概率的乘法法则(multiplication rule of probability):
独立事件交的概率:
两个相互独立的事件,其交的概率为:
更多概率论基本概念,参见: 概率论基本概念
(2)贝叶斯定理(Bayes’s Rule):
如果有k个互斥且有穷个事件
B1,B2⋅⋅⋅,Bk ,并且, P(B1)+P(B2)+⋅⋅⋅