朴素贝叶斯在实际的应用中有着很大帮助,之所以是朴素贝叶斯是因为,训练数据的属性之间独立的这样是为了好计算类条件属性的概率。
朴素贝叶斯的公式如下:
P(C=c | X = x ) = (P(C=c)P(X=x | C=c))/(P(X=x))
其中X是属性,C为类属性。
朴素贝叶斯求得就是P(c|x)的后验概率。
这个等式的右侧,分子p(c)为所属类别的概率,它是先验概率,我们是可以通过所属类的个数占总样本的比例计算
分母P(X)是全概率公式,它是一个固定的值。
最终就是计算条件概率,所类条件下的属性的概率。
由于我们的属性之间是独立因此,P(Xi|Cj)= P(x1|cj)P(x2|cj)。。。P(xi|cj)概率的乘积。
如何分类呢?
加入二分类
是比较P(c1|x)和P(c2|x)之间的大小,谁的概率大,就是属性哪一类。
今天的样例是根据天气的各种属性是否决定出去玩
样本的数据库来自weka的weather.nominal.arrf 文件
@attribute outlook {sunny, overcast, rainy}
@attribute temperature {hot, mild, cool}
@attribute humidity {high, normal}
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}
@data
sunny,hot,high,FALSE,no