是下面这个贝叶斯公式:
换个表达形式就会明朗很多,如下:
垃圾邮件关键词串联定律 表格法可视化贝叶斯定律
比如 如果出现 发票 这个词,那么此文件垃圾文件的概率为 90%。。
如果 出现 购买 这个词,垃圾文件概率为 80%
得到以下表格----------表格开始----------
词汇 | 垃圾邮件概率 | 正常邮件概率 |
发票 | 90% | 10% |
购买 | 80% | 20% |
购买发票 | 90*80=72%(舍弃掉此错误结构 | 10*20=2% |
购买发票 | 1-2%=98%(根据正常邮件概率反向计算垃圾邮件概率 | 10*20=2% |
--------表格结束=-------
表格解说。。几条规则
第一,如果只是出现发票一词,则垃圾邮件概率为90%,正常邮件概率自然为1-90%==10%
第2,如果只是出现购买一词,则垃圾邮件概率为80%,正常邮件概率自然为1-80%==20%
第三部,如果出现购买发票俩个次,则初步判断垃圾邮件概率为90%*80%=72%,正常邮件概率自然为10%*20%=2%
很明显,如果同时出现多个垃圾关键词。垃圾邮件的概率应该上升才对。。所以舍弃掉72%的错误计算结果。。
第四步。。那么得到正常邮件概率就是2%。。自然垃圾邮件概率就是1-2%==98%了。。。