7.1 贝叶斯决策论
贝叶斯决策论是概率框架下实施决策的基本方法.对分类任务来说,在所有相关概率都己知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。给定N个类别,令代表将第j类样本误分类为第i类所产生的损失,则基于后验概率将样本x分到第i类的条件风险为:
为最小化总体风险,只需在每个样本上选择那个能使条件风险最小的类别标记,即贝叶斯判定准则:
称为贝叶斯最优分类器,其总体风险称为贝叶斯风险,反映了分类器所能达到的最好性能,即通过机器学习所能产生的模型精度的理论上限。在现实中通常难以直接获得,从这个角度来看,机器学习所要实现的是基于有限的训练样本尽可能准确地估计出后验概率。大体来说,主要有两种策略:给定 x, 可通过直接建模 来预测 c,这样得到的是"判别式模型" ,包括决策树、 BP 神经网络、支持向量机等; 也可先对联合概率分布建模,然后再由此获得, 这样得到的是"生成式模型",必须考虑
基于贝叶斯定理,可写为
其中,是类"先验"概率;是样本相对于类标记的类条件概率,或称为"似然" ; 是 用于归一化的"证据" 因子。
7.2 极大似然估计
估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形 式,再基于训练样本对概率分布的参数进行估计。具体地,记关于类别c的类条 件概率为, 假设具有确定的形式并且被参数向量唯一确定, 则我们的任务就是利用训练集D估计参数。参数θc对于数据集Dc 的似然是
连乘操作易造成下溢,通常使用对数似然
于是,的极大似然估计为
7.3 朴素贝叶斯分类器
基于有限训练样本直接估计联合概率,在计算上将会遭遇组合爆炸问题,在数据上将会遭遇样本稀疏问题,属性数越多,问题越严重。基于属性条件独立性假设,贝叶斯公式可重写为
由于对所有类别来说P(x) 相同,于是
先估计
对离散属性而言,令表示 中在第个属性上取值为 的样本组成的集合,则
对于连续属性,考虑概率密度函数,假定,则
7.4 拉普拉斯修正
若某个属性值在训练集中没有与某个类同时出现过,则直接计算会出现问题,因为概率连乘将“抹去”其他属性提供的信息。令 N 表示训练集 D 中可能的类别数,表示第i个属性可能的取值数,则
参考文献:《机器学习》周志华