本博客是参考《数据仓库与数据挖掘技术》以及诸多道友的blog。仅作为自己学习的一个总结。
贝叶斯分类是一种基于统计学的分类方法,可以预测一个类成员关系的可能性。数据挖掘主要使用两种分类,朴素贝叶斯和贝叶斯网络方法。前者使用贝叶斯进行预测,后者是一个带有注释的有向无环图,以有效表示大变量集的联合概率分布,适用于分析大量变量之间的相互关系,贝叶斯理论应用于文档分类,医疗诊断,预测,推理和归纳等数据挖掘应用中。
朴素贝叶斯分类器,顾名思义,是一种分类算法,且借助了贝叶斯定理。另外,它是一种生成模型(generative model),采用直接对联合概率P(x,c)建模,以获得目标概率值的方法。
文章目录
预备知识
- 先验概率与后验概率
- 贝叶斯定理
朴素贝叶斯分类器
- 何为朴素:属性条件独立假设
- 分类准则
- 离散型与连续属性值的分别处理
例子讲解
拉普拉斯修正
预备知识
先验概率与后验概率
翻译:在贝叶斯统计推断论中,一个未确定数目的先验概率分布(一般简称为先验)是一种表达了某人对于该数目的信仰的一种概率分布,这种信仰是没有考虑到一些(当前的)证据的。
解释:通俗来说,对于某一个概率事件,我们都会有基于自己已有的知识,对于这个概率事件会分别以什么概率出现各种结果会有一个预先的估计,而这个估计并未考虑到任何相关因素。
举例来说,假如你考试没及格,老师要求大家拿卷子回家给爸妈签字,按照你已有的对