关于贝叶斯计算公式的一个问题

最新推荐文章于 2024-04-15 14:35:46 发布

JCJC错别字检测-田春峰

最新推荐文章于 2024-04-15 14:35:46 发布

阅读量2.8k

点赞数

文章标签： token 算法网络

本文链接：https://blog.csdn.net/accesine960/article/details/297843

版权

算服和理论相关专栏收录该内容

6 篇文章 0 订阅

订阅专栏

关于贝叶斯计算公式的一个问题

bayesian
网络上流传的关于反垃圾邮件的贝叶斯算法大都和这篇类似。

    但是里面的公式和作者举的例子却有冲突的地方：
    公式如下：
    A事件----邮件为垃圾邮件;
    t1,t2 …….tn代表TOKEN串
    则P（A|ti）表示在邮件中出现TOKEN串ti时，该邮件为垃圾邮件的概率。
    设
    P1（ti）=（ti在hashtable_good中的值）
    P2（ti）=（ti在hashtable_ bad中的值）
    则 P（A|ti）= P1（ti）/[（P1（ti）+ P2（ti）]；

作者的例子如下：
例如：一封含有"F L G"字样的垃圾邮件 A
和一封含有"法律"字样的非垃圾邮件B
根据邮件A生成hashtable_ bad，该哈希表中的记录为
F：1次
L：1次
G：1次
计算得在本表中：
法出现的概率为0。3
轮出现的概率为0。3
功出现的概率为0。3
根据邮件B生成hashtable_good，该哈希表中的记录为：
法：1
律：1
计算得在本表中：
法出现的概率为0。5
律出现的概率为0。5
综合考虑两个哈希表，共有四个TOKEN串： F L G 律
当邮件中出现"法"时，该邮件为垃圾邮件的概率为：
P=0。3/（0。3+0。5）=0。375
出现"轮"时：
P=0。3/（0。3+0）=1
出现"功"时：
P=0。3/（0。3+0）=1
出现"律"时
P=0/（0+0。5）=0；