1.贝叶斯定理
表示事件B发生的情况下,事件A发生的概率。其基本求解公式:
对于很容易直接推导出,但对于更加关心的
,则很难直接推导。但是借助贝叶斯公式就很容易求解:
2.算法描述
下面用一个例子来描述Naive Bayes算法的过程。假设这里有一张最近统计的病例表,如下:
症状
职业
疾病
打喷嚏
护士
感冒
打喷嚏
农夫
过敏
头痛
建筑工人
脑震荡
头痛
建筑工人
感冒
打喷嚏
教师
感冒
头痛
教师
脑震荡
现在又来了一个病人,是一个打喷嚏的建筑工人,那么他患最可能患什么病?
根据贝叶斯定理可得:
假设“打喷嚏”和“建筑工人”两个特征相互独立,则上式可变为:
同理,可以算出其“过敏”和“脑震荡”的概率,从而得出其最可能患哪种病。
3.贝叶斯分类器公式
假设样本有n个特征(Feature),分别为另外,假设n个特征相互独立,则:
最后,得到的最大概率的那个分类,即为所求。
当然,如果我们遇到的特征是连续值,不是离散值时,需要构建概率分布模型,比如说标准正态分布,然后用概率分布模型来求解概率。在Wikipedia上Naive Bayes Classifier中有一个这样的例子可以参考。
4.伪代码
Native Bayes:计算每个类别中记录的数目
每个样本训练记录
对每个类别
对每条记录
计算该记录的条件概率
返回每个类别的条件概率
参考文献:
http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html
http://www.ruanyifeng.com/blog/2013/12/naive_bayes_classifier.html
本文详细介绍了朴素贝叶斯分类器的基本原理及其应用过程。通过一个具体的医疗诊断案例,解释了如何利用贝叶斯定理计算不同疾病的可能性,并给出了特征独立假设下的分类器公式。此外,还提供了算法实现的伪代码。
8万+

被折叠的 条评论
为什么被折叠?



