基于离散型贝叶斯网络的模型平均的预测
<?xml:namespace prefix = w ns = "urn:schemas-microsoft-com:office:word" />
目录
基于离散型贝叶斯网络的模型平均的预测... 1
<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />
摘要:
在这篇论文中,我们考虑这问题关于表现贝叶斯平均模型,通过一类离散贝叶斯网络结构符合偏好的规则和有界的入度k。我们表现了这个类包含N个节点最坏的情况至少
个明显的网络结构,可是平均模型通过这些结构能够进行
个操作。此外我们讲述了存在一个单独的贝叶斯网络通过这些变量定义了一个节点的分布,他等同于在这些结构上的平均模型。虽然建造这个网络是以禁止的计算方式,我们显示它能被一个易管理的网络近似表达,允许近似平均模型概率计算的性能为o(N)次。在朴素贝叶斯模型中我们的结果通过2N 个可能特征值同样产生一个精确和线性时间解决对平均的问题,提供了一个精确的贝叶斯解决了对这麻烦的特征选择问题的贝叶斯分类。在监督分类的条件下,我们展示了这些技术的实用性,展示了凭经验的平均模型完全胜过了其他的基于贝叶斯网络的生成的模型,甚至当生成模型不一定是这个类被平均的一员。我们刻画了对在仿真和真实世界数据中的一些参数的性能。
关键字:贝叶斯网络,贝叶斯平均网络,分类,朴素贝叶斯分类,特征选择
1、引言:
一个概率模型M中的一组变量X, P(X)是x节点分布的参数。有很多对P(X)的实际的应用,包括计算预测的能力E(X),变量的结构,计算最大可能解释观测值的能力,更新一些变量关于其他变量信念
等等。事实上简言之任何概率量包含有关变量X能被计算一次p(X)是已知。贝叶斯网络是个常用的图形概率模型允许p(x)被指定在训练中,甚至当|X|是可以在变量X之间独立解释很大的量。
很多算法都是针对如何从数据中学习贝叶斯网络的已经被有效的应用从在学习贝叶斯模型的结构中,典型的通过后验概率对结构进行查找,这个结构给出的数据p(S|D)作为测量的质量。当学习一个特殊的贝叶斯网络结构被认为是可用的,可以由事实上在这些变量的性质之间得出一个单独的模型强独立的假设可能不是正确的,或者只可能在现实中是近似正确的。也就是说,对一个单一的网络学习过程没有办法俘获模型结构中的不确定性。最有原则的选择是选出一个特殊的网络结构,为了计算所有节点后面的p(X|D)通过所有可能的贝叶斯网络结构的平均。不幸地是,网络空间的结构是超指数的在一点数量的模型变量中,因此一个讲却的方法对于完整的平均模型可能是不好解决的。
一个特别常用的用法来通过数据学习节点分布是监督分类。普遍的监督分类问题是寻找一个基于标记的数据D,它能被用来将未来的容器的特征
F={ }
划分成一个多种类的属性。一个概率模型完成这个目标通过计算这个类特征的后验概率P(C|F)。这种分类中一个最简单的概率分类就是朴素分类。一个单一的贝叶斯模型无缺失特征向量被用来分类能进行O(n)次。当特征向量是不完整的时候,那么贝叶斯网络推理的标准算法能被用来分类。选择单一模型进行分类的缺点表明他们自己是过度拟合的数据,对未来的数据集产生不精确的分类。然而,模型平均能被用来减少过度拟合和提供更好的推广。
在这篇论文中我们考虑对一个特殊种类的结构进行精确和近似模型平局的可能性,而不是通过普通空间的有向无环图。我们显示了精确的模型平局通过这类贝叶斯网络结构符合偏序
和有界入度k,虽然他的超指数尺度能被在相对短的时间和空间限制中被表现出来。
在贝叶斯网络结构中有进行有效的模型平均的其他工作:对双向选择行修剪的近似模型平均分类的方法和蒙特卡罗技术的存在,已经被显示在预测任务中改进性能;然而这些方法能近似,不能保证我们方法的复杂度。弗里德曼和科勒尔研究了网络近似结构特征的能力,通过表现在给定节点的马尔可夫蒙特卡罗搜索。他们的方法依靠一种分解,Buntine ( 1991 ),我们在此基础上延伸以证明我们的关键的理论成果。我们将在第三部分具体的讨论这个问题。他们的工作不与我们的有个2个主要的方面:1)他们的方法不是获取MA问题的单一的网络2)他们表现模型平均只是计算了结构特征的概率,不是明确为了预测。其他的工作已经完成,在精确的模型中进行预测平均遍历所有的树形结构需要o(
)次。这个研究同样使用了相同的假设和相似的分解被
Friedman
和
Koller
在他们的论文里使用。我们的计算方法更普遍在于它允许节点有一个以上的父节点,但由于它是假定了一种具有偏序关系的节点因此有一定的局限性。
这篇论文主要的贡献如下:
1
)我们扩展
Buntine
分解
2
)我们显示了这个类上
MA
计算能够被重新产生通过一个单一的网络结构
,如果他能容易被构建,然后允许近似
MA
预测进行标准贝叶斯网络推理。
3
)我们显示了,对于这类朴素模型,对一定数量的变量计算
能线性时间内完成,我们凭经验展示了朴素分类上的平均模型改进性能;
4)
我们发展一个技术来为任意的模型产生训练的平均模型,我们凭经验地展示了这种技术能改进分类(与其他的贝叶斯网络分类相比)甚至当没有顺序的信息被当作一个先验。
除获得精确预测的训练问题以外,我们的技术是来自一个分析方面的兴趣。最近作为一个例子
Domingos
基于经验和理论的背景做了争论,实际上在机器学习中贝叶斯模型平均加剧过度拟合问题。凭经验地,他说明了规则学习者近似纯贝叶斯模型平均越近获得错误的几率越高比使用更多的
ad hoc
装袋技术规则学习者。他解释了这个观点作为一个可能的指数灵敏性对在数据中随机的波动影响的推论,并猜测甚至会影响对小数据和被放大作为一定数量的在增长中被平均的模型。在这里我们的实验直接对断言惊醒测试,包含的结果与
Domingos
的结论矛盾。
在第二部分,我们正规地制定了这个问题和说明了我们的假设和标记,重新导出前面的结果。在第三部分,我们导出了
MA
的解决方案并通过那些单一的结构产生了一组特殊的参数估计显示了
MA
预测,在第
5
部分,我们讨论我们的结论和未来的方向。
2.以前的结论
在这一章我们构造了问题,说明了我们表示方法和回顾了相关的以前的研究,重新导出
Friedman
、
Kolle
和
Buntine
的结果,并在第三部分把它们加入标记允许我们扩展他们用来预测。
2.1 假设和标记
一般被监督的分类问题可以如下被构建
:
给出特性集合
F = {F1
,
F2,…, FN}
,一套类
C = {C1
,
C2, . ..,CNc}
和一个被标记的训练数据集
D = {D1
,
D2, . . .,DND }
由分布
p
产生,构建模型预言哪类未来特征向量从
P
抽样是很可能存在的。我们需要一个统一的标记使用
Xi
来标记节点;我们使用约定
和
,我们使用
X
来表示网络中相同集的节点。一个有向图
(
X
)被定义为
<X,E>
,
E
表示有向边
,(
),如果
X
是一个随机变量,我们让
rng
(
X
)表示
X
的范围。我们使用黑体符号表示集合,非黑体表示集合的元素。
我们考虑平均问题在贝叶斯网络空间上,对一组变量
X
,
X
上的贝叶斯网络是一个在
x
上分解节点分布
p
(
x
)的图形模型。特别是:
定义
1
(贝叶斯网络)给出一组
X,N
个变量,
B
表示
X
上的一个贝叶斯网络
B=<S,>,S=<X,E>
是
X
的有向无环图,
是网络的参数代表了条件概率分布的一组
X
中每个变量在
S
中的父节点。
我们做出了如下假设:
假设
1
(多项式变量)每个节点
代表了离散随机变量,有
种可能的状态:
Rng
(
)
=
我们使用
表示
的父节点集,我们让
表示一定数量的
节点的可能节点结构的父节点(定义
if
),我们列举为:
Rng
(
)
=;
例如
有
3
对父节点则
=8
。
在假设多项式变量中,对
条件概率分布
产生概率分布表(
CPT
),分量
,对一个确定的网络结构
S
,分量
组成了贝叶斯网络模型的参数,定义所有变量假设在马尔可夫条件下的节点分布。我们使用标记
来表示全部的条件概率分布函数中第
i
个节点和第
j
个父节点,
表示网络所有的变量。一般的我们使用速记如果
是与坐标(
ijk
)有关的量,则
。
假设
2
(完全标记的训练数据)
训练数据集
D
包含无记录的
,使得
有一个未观测元素。
我们将讨论不使用该假设的方法在第
5
部分,我让
表示数据的充分统计量。(例如,节点
获得状态
k
的次数,当父节点
在第
j
个结构)
假设
3
(
Dirichlet
先验)给出变量值的先验信念的
Dirichlet
分布
我们让
表示
Dirichlet
超参数相当于网络参数
。为了简便起见,我们假
转载于:https://blog.51cto.com/822863/163930