使用贝叶斯分类器的目的是为了计算P(c|x)
,即样本x划分为c类的概率。但在有些情况下,直接计算该值并不是很容易。通过贝叶斯公式也可以间接的计算该值。
贝叶斯公式如下:
P(c|x) = P(c)*P(x|c)/P(x)
x的理解
x是单个样本,其实际上由多个属性组成的,(x1,x2,…,xi,…,xN),其中,N为样本属性值的个数。以西瓜分类为例,某N=3样本x的属性值分别为(青绿、蜷缩、浊想)。P(x|c)的理解
P(x|c)是类别c中属性值为x的概率。以西瓜分类为例,c代表好瓜,那么此处的P(x|c)是好瓜中瓜的属性为青绿、蜷缩和浊想的概率。注意,此时的P(x|c)是一个联合概率。也就是P(x1,x2,…,xi,…,xN|c)P(x)的理解
因此,一旦确定好样本x,P(x)值也就是确定的。也就是说,在一个样本总量为20的样本技中,属性值分别为(青绿、蜷缩、浊想)的样本有10个,那么,
P(x)=0.5
记住,P(x)的值是选定样本时可以确定的。
- P(c)的理解
P(c)表示的是类别为c时的概率。以西瓜分类为例,当c=好瓜,则P(c)是样本中好瓜的概率。这通过统计科直接算出。