一、贝叶斯决策论
贝叶斯分类器通俗点理解就是在给定样本的情况下使得分类正确的概率越大,则分类器越好。反之分类错误的概率越小分类器越好。举个例子:以西瓜数据3.0为例,对编号为1的数据进行预测,预测是好瓜的概率越大分类器越好,这很容易理解。
我们可以将问题转化为最小化分类错误的概率,对于多分类类别我们考虑分类成所有不同类别期望损失(可以简单考虑为类别的平均值),假设有N种可能的假设,即y={c1, c2, ......cN},λij是将一个真实标记为cj的样本误分类为ci所产生的损失,就可以得出给定样本x的期望损失为(条件风险):
我们训练的目的是通过训练数据寻找一个判定准则h使得整体样本期望损失最小:
显然若h能使每个样本x都能最小化条件风险R(h(x)|x),则总体风险R(h)也将被最小化。
如果将λij写成:
即分类正确为0,分类错误为1
因为x分类为所有类别的概率为1,分类正确的概率只真实类别p(c|x),则条件风险为:
我们知道p(c|x)为后验概率,显示任务中通常难以直接获得,通过贝叶斯定位可得到后验概率:
但是又引出了求p(x|c)的问题,显示中的总体空间远大于样本空间,很多样本取值在训练集中根本没有出现,直接用评率来估计p(x|c)显然不行,因为“未被观测到”与“出现概率为零”通常是不同的。极大似然估计是解决该问题的方式之一。
二、极大似然估计:
要求条件概率p(x|c)先假定其具有某种确定的概率分布形式,再机遇训练样本对概率分布的参数进行估计。假设p(x|c)具有确定的形式并且被参数θc唯一确定,则我们的任务就是利用训练集D估计参数θc。将p(x|c)标记为p(x|θc)。
注意:(若对极大似然估计不熟悉的同学可以参考浙江大学的《概率论与数理统计》,这里只做简单记录)
对LL(θc)求导等于零即可解出最大似然估计
可解出:
进而可以求出p(x|c)。
三、朴素贝叶斯分类器:
计算P(x|c)的方式不同,朴素贝叶斯分类器采用了属性条件独立性假设,类条件概率P(x|c)是所有属性上的联合概率,可得:
但是需要注意对未出现过的属性集会造成概率为0:
常用拉普拉斯修正:
四、半朴素贝叶斯分类器:
朴素贝叶斯分类器采用了属性条件独立性假设,但现实任务中这个假设往往很难成立,由此产生了半朴素贝叶斯分类器。
基本思想是适当考虑一部分属性间的相互依赖信息。“独依赖估计”(ODE)是半朴素贝叶斯分类器最常用的一种策略。
其中pai为属性xi所依赖的属性,称为xi的父属性。如何确定pai这个父属性产生了如下几种算法法:
AODE计算公式如下:
其中TAN最大带权生成树算法,通过以下步骤生成树:
五、贝叶斯网:
贝叶斯网用来刻画属性间的依赖关系,简单点说就是假设将相关属性用有向线段链接起来表示属性相互关联,而相互独立独立属性不连接,形成的图称为贝叶斯网,然后计算出属性的联合概率分布。而这个贝叶斯网的结构是未知的,通过训练数据来确定结构,如下图:
上图表示x1、x2独立、x3和x4在给定x1的情况下独立、x4和x5在给定x2的情况下独立。
为根蒂的条件概率表,例如:
一个贝叶斯网B由结构G和参数θ两部分构成,即B=(G,θ),G是一个有向无环图,参数θ包含了每个属性的条件概率表
由图可以看出贝叶斯网中三个变量之间的典型依赖关系:
就生成了道德图:
为了通过训练数据确定贝叶斯网结构,常用评分函数
其中|B|是贝叶斯网的参数个数,f(θ)表示描述每个参数θ所需的字节数;
是贝叶斯网B的对数似然。目标就是最小化s(B|D)。
f(θ)=1得到AIC评分函数:
得到BIC评分函数:
贝叶斯网络训练好之后就能通过一些属性变量的观测值来推测其他属性变量的取值。
对于属性值不完整的训练样本通常使用EM算法。