贝叶斯学习
贝叶斯公式
贝叶斯学习器其实是从经典的贝叶斯概率公式的来的,对于经典的贝叶斯公式:
P(A|B)=P(B|A)P(A)P(B)
式中P(A)表示A的先验概率(即A发生的概率与B无关),P(A|B)表示A的后验概率(即在已知B发生的情况下,A发生的概率)
朴素贝叶斯分类
我们都知道贝叶斯是一个经典的求取概率的公式,那么贝叶斯又是怎么和分类相联系起来的呢?
实际上,在分类的过程中,我们要判断某样本x是否属于某类别A时,可以将这件事看成是个概率问题,即判断x属于A的可能性有多大。假设类别有n种,则只需求取x分别属于每个样本的概率有多大,概率值最大的,即可认为是x的所属类别。
朴素贝叶斯分类的正式定义如下:
1. 设 x={
a1,a2,...,am} 为一个带分类项,其中每个 a 的为x的一个特征属性.
2. 有类别集合
计算 P(y1|x) , P(y2|x) ,…, P(yn|x) 。
如果 P(yk|x)=max{ (y1|x),P(y2|x),...,P(yn|x)}
则 x∈yk
现在从定义可以看出每步并不难理解。关键时第三步中的每个概率值怎么求取。对于单个变量,求取其概率值比较好求,可是这里的x时一个含有m个属性的变量,这种情况下,该怎么求取其属于某类别 yn 的概率是多少呢?
下面给出求解推导:
已知我们要求取 P(yi|x) 的概率值,根据贝叶斯公式可以将其转换为如下形式:
P(yi|x)=P(x|yi)P(yi)P(