机器学习 | 朴素贝叶斯法理论知识
贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。朴素贝叶斯法是基于贝叶斯原理与特征条件独立假设的分类方法。即:加上条件独立假设的贝叶斯方法就是朴素贝叶斯方法(Naive Bayes)。
首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。 朴素贝叶斯法实现简单,学习与预测的效率都很高,是一种常用的方法。它的思想是:对于给出的待分类项,求解此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
朴素贝叶斯算法
(1) 设元组X=x1,x2,...,xn为一个待分类项,描述n个属性A1,A2,...An对元组的n个测量。
(2) 假定有m个类C1,C2,...,Cm。朴素贝叶斯分类法预测X属于类Ci,当且仅当P(Ci|X)≥P(Cj|X),1≤i,j≤m,i≠j 。
(3) 由于P(Ci|X)=P(X|Ci)P(Ci)P(X),而P(X)为常数,只需P(X|Ci)P(Ci)最大即可,同时P(Ci)可求,即P(Ci)=Si/S,其中Si为样本中属于类Ci的个数,而S为样本总数,又因为特征属性是条件独立的,所以有P(X|Ci)=∏k=1nP(Xk|Ci)。
(4) 找出使P(X|Ci)P(Ci)最大的Ci,则X属于类Ci。
根据以上的步骤我们来做一做例题:
给出如表所示的训练样本&#