guet+第六组+2021
贝叶斯分类器是一类分类算法的总称,贝叶斯定理是这类算法的核心,因此统称为贝叶斯分类。在学习贝叶斯分类之前,我们需要了解的一些预备知识。
基本概念
先验概率:反映了我们在实际观察之前对某种状态的预期
先验概率记作:P(Y=yi)或P(yi)
局限性:总是会做出同样的预测
如果先验概率是均匀的,那么效果不佳
无法利用更多的信息
后验概率:给定测量x,某个特定类别的概率:
贝叶斯公式:
因此,我们希望最大化后验概率的类别作为预测结果
贝叶斯决策论:
贝叶斯决策论通过相关概率已知的情况下利用误判损失来选择最优类别分类。“风险”(误判损失)= 原本为ci的样本误分类成ci产生的期望损失,期望损失可通过下式计算:
寻找一个判断准则h:
为了最小化总体风险,只需在每个样本上选择能够使条件风险R(c|x)最小的类别标记。最小化分类错误率的贝叶斯最优分类器为:
若有 𝜆𝑖𝑗是0——1取值,则条件风险为:
任务目标:
朴素贝叶斯:
“朴素贝叶斯”名字的由来
半朴素贝叶斯分器:
由于朴素贝叶斯分类器的前提假设是属于条件相互独立,但是实际情况往往并不相互独立。因此产生了半朴素贝叶斯分类器,适当考虑属性条件之间的相互依赖信息。
假定每个属性仅依赖于其他最多一个属性,这种关系称为:独依赖估计(ODE)
(1)最直接的做法是假设所有属性都依赖于同一个属性,称为“超父”,然后通过交叉验证的等模型选择方法来确定“超父”属性,由此形成了SPODE。
(2)仅保留强相关性之间的依赖性。
(3)AODE尝试将每个属性作为超父来构建SPODE ,然后将那些具有足够训练数据支撑的SPODE集成起来作为最终结果。
平滑:
考虑:用极大似然估计可能会出现要估计的概率值为0的情况,这时会影响到后验概率的计算结果,使得分类产生误差。解决这一类问题的方法是采用拉普拉斯修正。
连续特征:
在实际问题解决过程中我本身采取一系列连续的温度数值,也就是说我不枚举一些离散的特征,通过数据分析,这类数据符合某一类分布,比如高斯分布,我们就可以利用这种数据进行最大似然估计,计算它的平均均值和方差,对这些连续的特征进行数据分析。
总结:(1)贝叶斯分类器就是最大后验概率估计
(2)贝叶斯决策论通过相关概率已知的情况下利用误判损失来选择最优类别分类。
(3)在朴素贝叶斯分类中何为朴素?朴素代表着特征向量X={}中每一个特征相互独立。
(4)当每一个特征相互独立时,上面的式子可以变形为如下形式的求解:
(5)由于朴素贝叶斯分类器的前提假设是属于条件相互独立,但是实际情况往往并不相互独立。因此产生了半朴素贝叶斯分类器,适当考虑属性条件之间的相互依赖信息。
(6) 当进行数据分析的数据为离散型时。
在类别形的样本中,第i个特征出现次数占总的类别为的样本的比例(当做概率的估计)。这 里你可能会问,每个类别为的样本中必然会存在第i个特征啊?由于特征有多个取值,所以实际 表示的是特征取值为时的概率,在统计时需要将特征每一个取值时的概率都计算出来,当预测一个新样本时,如果特征取值为,则特征取值为的概率参与计算,其他取值的概率则不参与计算。
(7)当为连续型时:
假设服从某一个概率分布模型,由样本去求解模型参数(可以通过极大似然估计求解)
(8) 在统计样本时,如果出现,会导致为0,这显然是不合理的,为了避免这种情况的发生,采用拉普拉斯平滑算法:将第j个特征出现次数+1以避免出现;同理,所以也采用拉普拉斯修正。