摘要:
朴素贝叶斯也是机器学习中一种非常常见的分类方法,对于二分类问题,并且数据集特征为离散型属性的时候,
使用起来非常的方便。原理简单,训练效率高,拟合效果好。
朴素贝叶斯
贝叶斯公式:
朴素贝叶斯之所以称这为朴素,是因为假设了各个特征是相互独立的,因此假定下公式成立:
则朴素贝叶斯算法的计算公式如下:
在实际计算中,上面的公式会做如下略微改动:
由于某些特征属性的值P(Xi|Ci)可能很小,多个特征的p值连乘后可能被约等于0。可以公式两边取log然后变乘法为加法,避免类乘问题。
P(Ci) 和P(Xi|Ci) 一般不直接使用样本的频率计算出来,一般会使用拉普拉斯平滑。
上面公式中,Dc为该类别的频数,N表示所有类别的可能数。
上面公式中,Dc,xi为该特征对应属性的频数,Dc为该类别的频数,Ni表示该特征的可能的属性数。
对应的西瓜书数据集为
色泽 根蒂 敲声 纹理 脐部 触感 好瓜
青绿 蜷缩 浊响 清晰 凹陷 硬滑 是
乌黑 蜷缩 沉闷 清晰 凹陷 硬滑 是
乌黑 蜷缩 浊响 清晰 凹陷 硬滑 是
青绿 蜷缩 沉闷 清晰 凹陷 硬滑 是
浅白 蜷缩 浊响 清晰 凹陷 硬滑 是
青绿 稍蜷 浊响 清晰 稍凹 软粘 是
乌黑 稍蜷 浊响 稍糊 稍凹 软粘 是
乌黑 稍蜷 浊响 清晰 稍凹 硬滑 是
乌黑 稍蜷 沉闷 稍糊 稍凹 硬滑 否
青绿 硬挺 清脆 清晰 平坦 软粘 否
浅白 硬挺 清脆 模糊 平坦 硬滑 否
浅白 蜷缩 浊响 模糊 平坦 软粘 否
青绿 稍蜷 浊响 稍糊 凹陷 硬滑 否
浅白 稍蜷 沉闷 稍糊 凹陷 硬滑 否
乌黑 稍蜷 浊响 清晰 稍凹 软粘 否
浅白 蜷缩 浊响 模糊 平坦 硬滑 否
青绿 蜷缩 沉闷 稍糊 稍凹 硬滑 否
python实现
#encoding:utf-8
import pandas as pd
import numpy as np
P(Ci) 和P(Xi|Ci) 一般不直接使用样本的频率计算出来
最新推荐文章于 2022-10-19 20:59:35 发布
朴素贝叶斯是一种常用的分类方法,尤其适用于离散型特征的数据集。算法基于贝叶斯公式和特征独立假设,通过拉普拉斯平滑解决概率计算中的零概率问题。文中介绍了朴素贝叶斯的工作原理,如何计算P(Ci)和P(Xi|Ci),并提供了使用Python实现朴素贝叶斯分类器的示例,展示了在西瓜数据集上的应用和性能评估。
摘要由CSDN通过智能技术生成