文中借鉴引用CSDN各大博主图片,文献,思想。非完全原创
贝叶斯分类器的基本脉络
基本原理
什么是贝叶斯决策论: 通过相关概率已知的情况下利用误判损失来选择最优的分类器。
误判损失也叫风险。即原本为Cj的样本被误分类成Ci产生的期望损失
其中lambda便为损失,损失乘以概率得到期望损失(风险)。
而我们的目标则是寻找一个判定准则h以最小化R。
显然,为了最小化总体风险,我们只需在每个样本上选择能够使条件风险R(c|x)最小的类别标记。
H*为最优分类器,与之对应的总体风险为贝叶斯风险。其中lambda为1时,最优贝叶斯分类器是使后验概率P(c|x)最大。
利用贝叶斯判定准则来最小化决策风险,首先要获得后验概率P(c|x),机器学习则是基于有限的训练样本集尽可能准确的估计出后验概率P(c|x)。通常有两种模型:1.判别式模型 2.生成式模型
其中,判别式模型:给定x,可通过直接建模P(c|x)来预测c。 x是我们的条件(如西瓜的颜色、滕曼、根茎) c是结果(好瓜、坏瓜)。实例如上图。
而生成式模型:先对联合概率P(x,c)建模,根据P(x|c)与贝叶斯定理、极大似然估计,获得最优P(c|x)。
贝叶斯便是一种生成式模型,贝叶斯定理如下:
P(c)是类“先验”概率,P(x|c)是样本x相对于类标记条件概率,或称似然。
而对于模型的训练过程,其实就是对于参数的估计过程。我们可以使用似然估计法,使用对数似然得到极大似然估计。
(公式见统计学与概率论中极大似然估计)
朴素贝叶斯分类器:
朴素贝叶斯分类器
基于贝叶斯公式来估计后验概率P(c|x)的主要困难在于:P(x|c)是所有属性上的联合概率,难以从有限的训练样本估计而得。为了避开这个障碍,朴素贝叶斯分类器采用了属性条件独立性假设:对已知类别,假设所有属性相互独立,即每个属性独立的对分类结果造成影响。
(贝叶斯基础见贝叶斯决策)
根据贝叶斯定理
对P(x|c)做似然估计后得:
其中d为属性数目,xi为x在第i个属性上的取值(如x表示颜色,x1为绿色 x2为黄色)
由于对所有类别来说p(x)相同,因此基于上式的贝叶斯准则有
即:
对于每一个离散属性与连续属性的分别处理(无laplace修正):
例子:西瓜书p152 或 https://blog.csdn.net/qq_32690999/article/details/78737393#Bayesian_Theorem_49
拉普拉斯修正:
朴素贝叶斯分类器在实际使用中需注意的一个问题:若某个离散类型的属性值在训练集中没有与某个类同时出现过,那么当我们使用 上述条件概率对其进行估计时, p(xi|c)=0。因此,哪怕其他属性x表现的再像c,也会被当做是0。
为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”,我们使用拉普拉斯修正对估计概率做“平滑”处理。
用例同上。