本文重点
针对上一篇文章,我们可以看到要想解决垃圾邮件的分类任务
这两个概率还是不好计算,此时为了解决这个问题,我们引入朴素贝叶斯算法,朴素贝叶斯算法假设条件独立,也就是说数据对象的不同属性对其归类影响是相互独立的。
朴素贝叶斯解决垃圾邮件分类
首先上面两个概率的分母都是一般大小的,所以我们只要比较哪个大,没有必要确定概率是多少,所以我们只需要确定分子的相对大小就可以了
针对上面的问题,我们可以使用朴素贝叶斯来进行处理,它变为:
C垃圾=p(恭喜|垃圾邮件)p(您|垃圾邮件)p(的|垃圾邮件)p(条件|垃圾邮件)p(已|垃圾邮件)p(达标|邮件)p(特|垃圾邮件)p(通知|垃圾邮件)p(您|垃圾邮件)p(申请|垃圾邮件)p(金卡|垃圾邮件)p(资格|垃圾邮件)p(垃圾邮件)
C正常=p(恭喜|正常邮件)p(您|正常邮件)p(的|正常邮件)p(条件|正常邮件)p(已|正常邮件)p(达标|正常)p(特|正常邮件)p(通知|正常邮件)p(您|正常邮件)p(申请|正常邮件)p(金卡|正常邮件)p(资格|正常邮件)p(正常邮件)
那么每一项都很好求,比如:
p(恭喜|正常邮件)=正常邮件中恭喜出现的次数/正常邮件中总次数
那么最终我们可以就可以一个一个计算,最终得到C垃圾和C正常的大小,从而判断这封邮件是垃圾邮件还是正常邮件