所谓概率分类器,即计算待分类对象属于每个类别的概率,选择最大概率输出。
朴素贝叶斯(NaiveBeyesianClassification,NB)公式:
其中代表先验概率;
接下来用一个实例来解释如何计算该分类概率。
假设有1000篇文章,其中军事300篇,科技200篇,医疗500篇;
则
=p(军事)=300/1000=0.3
=p(科技)=200/1000=0.2
=p(医疗)=500/1000=0.5
接下来求解,根据最大似然估计(maximum likehoodestimation,MLE)可得
假设待评估文章x包含以下词汇,
=“军舰”, =“人工智能”, =“医生”,
军事类文章中,包含"军舰"的文章有120篇,包含"医生"的文章有24篇,包含"人工智能"的文章有12篇;
科技类文章中,包含"军舰"的文章有16篇,包含"医生"的文章有28篇,包含"人工智能"的文章有80篇;
医疗类文章中,包含"军舰"的文章有10篇,包含"医生"的文章有250篇,包含"人工智能"的文章有5篇;
计算结果如下:
=120/300=0.4
=12/300=0.04
=24/300=0.08
=0.4*0.04*0.08=0.00128
=16/200=0.08
=80/200=0.4
=28/200=0.14
=0.08*0.4*0.14=0.00448
=10/500=0.02
=5/500=0.01
=250/500=0.5
=0.02*0.01*0.5=0.0001
根据NB可得
由此可得文章x在军事、科技、医疗三个种类中属于科技的概率最大。