朴素贝叶斯模型是一组非常简单快速的分类算法,通常适用于维度非常高的数据集.速度快,可调参数少.非常适合为分类问题提供快速粗糙的基本方案.
作为一个数学小白,乍一听到朴素贝叶斯这个名词时一般都是晕的,根据多年的初等数学学习经验,贝叶斯应该是一个人,但是"朴素"是什么鬼?是不是还有不朴素的贝叶斯?其实我看这个模型已经好多次了.每一次看到那堆数学公式的时候我都是直接跳过看结论的.不过现在想想学习这件事情不能这么马虎,这么基础的一个概念,放在茫茫大算法中算是小儿科的存在,如果连这个都没搞懂那以后的机器学习算法还怎么看,以后论文还怎么看?于是我开始对贝叶斯定理做了一个较为完整的学习.也和大家一起分享一下
首先要说一下贝叶斯定理
在说贝叶斯定理前先说几个专有名词
- 条件概率,条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B条件下A的概率”。举个例子,事件A是这个人是女生,事件B是这个人扎小辫子.那么P(A|B)就是在这个人扎小辫子的情况下,这个人是女生的概率
- 先验概率,先验概率是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现的概率。
- 全概率公式:全概率公式为概率论中的重要公式,它将对一复杂事件A的概率求解问题转化为了在不同情况下发生的简单事件的概率的求和问题。内容:如果事件B1、B2、B3…Bn 构成一个完备事件组,即它们两两互不相容,其和为全集;并且P(Bi)大于0,则对任一事件A有P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+...+P(A|Bn)P(Bn)或p(A)=P(AB1)+P(AB2)+...+P(ABn)),其中A与Bn的关系为交)
- 条件独立:如果P(X,Y|Z)=P(X|Z)P(Y|Z),或等价地P(X|Y,Z)=P(X|Z)则称事件X,Y对于给定事件Z是条件独立的,也