朴素贝叶斯分类器是一种常用的分类算法,该算法利用训练数据集合的特征、类别以及测试数据的特征来得到测试数据的类别。
下面是该分类器原理中最重要的公式:
P(C|F1F2...Fn) = P(F1F2...Fn|C)P(C) / P(F1F2...Fn)
在这个公式中,C表示类别,F1,F2,F3...Fn是n个特征,这个公式的意思为:在满足一组特征的条件下分到类别C的概率=在满足类别C的条件下一组特征同时出现的概率*类别C出现的概率/一组特征同时出现的概率。
由于公式中分母P(F1F2...Fn)是一个定值,朴素贝叶斯分类器算法只需要计算P(F1F2...Fn|C)P(C),用于作为判断属于某一类别概率的指标。这里我们假设各个特征之间相互独立,即使不独立我们也认为是独立的,因为实验证明这样的计算一般对结果影响很小。所以有:P(F1F2...Fn|C)P(C) = P(F1|C)P(F2|C) ... P(Fn|C)P(C),在给出的训练数据集合中,P(Fi|C)为一个特征的值在该类出现的次数/该类训练数据的总数,