1、朴素贝叶斯分类算法 思路:通过计算在已知样本特征 X 下,该样本被分类为 Ci 类的概率,并取取得最大的概率的类为该样本所属分类 假设:假设每个特征相互独立 公式: 已知 X=(x1,x2,...,xn) , y=(C1,C2,...,Cm) , X 是 n 维向量, y 是 m 维向量 P(Ci|X)=P(Ci)∏nk=1P(xk|Ci)∑mi=1P(Ci)P(X|Ci)(1) (1) 式中的分母由于对于每个 (1) 式来说都是相同,可以在实际计算中省略不使用 另外 P(X|Ci) ,由于 X=(x1,x2,...,xn) ,故 P(X|Ci) 可写成 P(x1,x2,...,xn|Ci) , 而 P(x1,x2,...,xn|Ci) 又可以写成 ∏nk=1P(xk|Ci) 故 (1) 式可改写为: P(Ci|X)=P(Ci)∏nk=1P(xk|Ci)∑mi=1P(Ci)∏nk=1P(xk|Ci)(2) 由 (2) 式的分母可以明显看出对于每一个样本 X 来说,分母都是相同的。 优点:方法简单、准确率高、计算速度快 缺点:假设每个特征相互独立的假设过强,不太符合实际;需要知道先验概率;样本数据量要比较多,这样得到的后验概率才比较准确