朴素贝叶斯(Naive Bayes)的定义
朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。在了解朴素贝叶斯之前,我们一起回顾一下概率的一些基础知识。
概率(Probability)的基础知识
概率就是随机事件出现的可能性的量度,记作P(X) ,取值为0~1之间
如:扔一枚普通的硬币,正面朝上的概率和反面朝上的概率都为1/2:P(正) =1/2、P(反)=1/2
联合概率:多个事件同时发生的概率,P(A,B)
条件概率:事件A在事件B已经发生的条件下发生的概率,P(A|B)
相互独立:如果P(A,B) = P(A)P(B), 则称事件A与事件B相互独立,朴素贝叶斯的条件假设就事件相互独立
贝叶斯公式
贝叶斯公式+相互独立假设 = 朴素贝叶斯
朴素贝叶斯的实际应用-文本分类
如何使用朴素贝叶斯算法对文本进行分类呢?其原理是通过求一个文本中同时出现某些词的情况下属于各文本类别的概率,概率最高的则为预测类别。
以上图为例(我对中文文本进行了简单的手动分词,专业的分词以后再学习分享),要预测出测试集新闻类型,则转化为求以下几个概率,概率最大的则为预测所得的新闻类型(假设“与”不作为特征词)
P(体育|武磊,C罗,互换,球衣)
P(历史|武磊,C罗,互换,球衣)
P(娱乐|武磊,C罗,互换,球衣)
经过贝叶斯公式转化则为
P(武磊,C罗,互换,球衣|体育)*P(体育)/P(武磊,C罗,互换,球衣)
P(武磊,C罗,