目录
1.朴素贝叶斯
1.1概述
朴素贝叶斯法(Naive Bayes model)是基于贝叶斯定理与特征条件独立假设的分类方法。
最为广泛的两种分类模型是决策树模型和朴素贝叶斯模型。和决策树模型相比,朴素贝叶斯分类器发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。
2.算法原理,步骤
2.1贝叶斯定理
公式
P(Y|X)=
P(Y|X)为后验概率,P(X|Y)为条件概率,P(Y)为先验概率。
2.2 贝叶斯方法
分类器的构造方法很多,常见的有贝叶斯方法、决策树方法、基于实例的学习方法、人工神经网络方法、支持向量机方法、基于遗传算法的方法、基于粗糙集的方法、基于模糊集的方法等等。其中,贝叶斯方法正以其独特的不确定性知识表达形式、丰富的概率表达能力、综合先验知识的增量学习特性等成为众多方法中最为引人注目的焦点之一。
贝叶斯方法的特点主要包括:增量式学习的特点;先验知识可以与观察到的实例一起决定假设的最终概率的特点;允许假设做出不确定性预测的特点;对新实例的分类可由多个假设以它们的概率为权重一起作出预测的特点等等 。
2.3 朴素贝叶斯分类器的生成步骤
(1)计算每个类别的先验概率,即某个样本属于某一类别的概率。在朴素贝叶斯中,先验概率可以根据样本集中每个类别的样本数计算得到。
(2)计算每个特征与目标变量之间的条件概率。这就相当于计算每个类别下的每个特征值的概率。在朴素贝叶斯中,条件概率可以使用频率来估计,即将训练集中某个类别下某个特征值出现的次数除以该类别下总的样本数。
(3)对于待预测的新样本,根据所属类别的后验概率,将其分类为概率最大的那一类。
3.案例
3.1代码实现
导入python库
导入训练集
返回西瓜的特征以及好坏分类
返回属性的数目与分类
建立朴素贝叶斯分类器,分别记录好瓜与坏瓜的数据,并进行分类。
进行先验概率和似然概率的计算,记录好瓜与坏瓜各属性的概率并初始化,
最后进行统计
返回好瓜与坏瓜各属性的概率以及先验概率
计算后验概率
输入测试集,检测类别为好瓜还是坏瓜
测试结果为坏瓜
3.2 总结
优缺点
优点
朴素贝叶斯算法假设了数据集属性之间是相互独立的,因此算法的逻辑性十分简单,并且算法较为稳定,当数据呈现不同的特点时,朴素贝叶斯的分类性能不会有太大的差异。换句话说就是朴素贝叶斯算法的健壮性比较好,对于不同类型的数据集不会呈现出太大的差异性。当数据集属性之间的关系相对比较独立时,朴素贝叶斯分类算法会有较好的效果。
属性独立性的条件同时也是朴素贝叶斯分类器的不足之处。数据集属性的独立性在很多情况下是很难满足的,因为数据集的属性之间往往都存在着相互关联,如果在分类过程中出现这种问题,会导致分类的效果大大降低。