Dempster-Shafer evidence theory,简称D-S证据理论,是Dempster于1967年提出,他的学生Shafer于1976年进一步拓展推广形成的一套完整的不确定推理理论。
D-S证据理论的解释有很多,其中最为常用且易于理解的为“广义贝叶斯理论” ,即D-S理论是贝叶斯理论的一般化。
那么为什么这么说呢?这得从贝叶斯理论开始谈起:
贝叶斯理论,也就是概率论是最经典的不确定推理理论,没有之一。假设
Θ
\Theta \,
Θ是一组相互独立、互相穷尽的命题的集合,记为:
Θ
=
{
θ
1
,
θ
2
,
⋯
,
θ
n
}
\Theta {\rm{ = \{ }}{\theta _1},{\theta _2}, \cdots ,{\theta _n}{\rm{\} }}\,
Θ={θ1,θ2,⋯,θn}概率论定义在集合
Θ
\Theta \,
Θ上,有
P
(
θ
i
)
≥
0
,
∑
i
=
1
n
P
(
θ
i
)
=
1
\ P({\theta _i}) \ge 0,\sum\limits_{i = 1}^n {P({\theta _i}) = 1} \,
P(θi)≥0,i=1∑nP(θi)=1
最经典的例子是抛一枚硬币,正面朝上与反面朝上组成命题的集合 Θ \Theta \, Θ,正面朝上的概率加上反面朝上的概率等于1。
D-S证据理论参照贝叶斯理论中的概率分配,提出了基本概率分配函数(basic probability assignment, bpa),表示证据对
Θ
\Theta \,
Θ所有子集的影响。bpa定义在识别框架
Θ
\Theta \,
Θ的幂集上,为
Θ
\Theta \,
Θ的每个非空子集分配了信度:
m
(
∅
)
=
0
,
∑
A
⊆
Θ
m
(
A
)
=
1
\ m(\emptyset ) = 0,\sum\limits_{A \subseteq \Theta } {m(A) = 1} \,
m(∅)=0,A⊆Θ∑m(A)=1
Θ
\Theta \,
Θ的幂集指的是
Θ
\Theta \,
Θ所有子集的集合,即:
2
Θ
=
{
∅
,
θ
1
,
⋯
,
θ
n
,
{
θ
1
,
θ
2
}
,
⋯
,
{
θ
n
−
1
,
θ
n
}
,
⋯
,
{
θ
1
,
θ
2
,
⋯
,
θ
n
}
}
\ {2^\Theta } = \{ \emptyset ,{\theta _1}, \cdots ,{\theta _n},\{ {\theta _1},{\theta _2}\} , \cdots ,\{ {\theta _{n - 1}},{\theta _n}\} , \cdots ,{\rm{\{ }}{\theta _1},{\theta _2}, \cdots ,{\theta _n}{\rm{\} }}\} \,
2Θ={∅,θ1,⋯,θn,{θ1,θ2},⋯,{θn−1,θn},⋯,{θ1,θ2,⋯,θn}}
以上述硬币的例子为例, Θ \Theta \, Θ的幂集为 2 Θ = \ {2^\Theta } =\, 2Θ= {空集,正面朝上,反面朝上,{正面朝上,反面朝上}}。
为了方面说明,再定义焦元的概念:若 m ( A ) > 0 \ m(A) > 0\, m(A)>0,则称A为 2 Θ \ {2^\Theta } \, 2Θ的一个焦元。
很显然,当所有的焦元均是 Θ \Theta \, Θ中的元素时(即 A = θ 1 o r θ 2 o r ⋯ o r θ n \ A{\rm{ = }}{\theta _1}{\rm{ or }}{\theta _2}{\rm{ or }} \cdots {\rm{ or }}{\theta _n}\, A=θ1orθ2or⋯orθn),D-S理论退化为贝叶斯理论,这就是为什么说D-S理论是广义的贝叶斯理论了。
以硬币例子为例,当 m ( ∅ ) = 0 \ m(\emptyset ) = 0\, m(∅)=0& m ( 正 面 朝 上 , 反 面 朝 上 ) = 0 \ m({正面朝上,反面朝上})=0\, m(正面朝上,反面朝上)=0时,D-S理论退化为贝叶斯理论。
bpa是概率质量分布(probability mass distribution,贝叶斯理论中的定义)的一种推广,后者将[0,1]范围内的一个数赋给 Θ \Theta \, Θ的每一个单元素子集,并使这些数之和为1。
在证据理论中,如果证据对某个命题 θ 1 \theta_1 \, θ1的支持度为 m ( θ 1 ) \ m(\theta_1 )\, m(θ1),则剩余的支持度将会分配给识别框架 Θ \Theta \, Θ,即 m ( Θ ) = 1 − m ( θ 1 ) \ m(\Theta) =1-m(\theta_1 )\, m(Θ)=1−m(θ1)。而在贝叶斯理论中,剩余支持度相当于假设的否定(即被分配给了命题 θ 1 \theta_1 \, θ1的补集), p ( θ ˉ 1 ) = 1 − p ( θ 1 ) \ p(\bar \theta_1)=1-p(\theta_1) \, p(θˉ1)=1−p(θ1)
其实关于DS理论是广义贝叶斯这一点,很多学者是持质疑态度的。他们举的例子是一个识别框架{A,B,C},如果仅有焦元m(A)=0.5, m(B)=0.3,那么按照广义贝叶斯理论来说应该退化成概率论,根据概率论有p(A∪B)=p(A)+p(B)=0.5+0.3=0.8,也就是m(A,B)=0.8,那么m(A)+m(B)+m(A,B)=1.6>1,不合理。
然而实际上这个例子却是在偷换概念。既然已经退化成贝叶斯理论,那么就应该完全按照概率论的计算方法来对问题进行分析,将m(A,B)=0.8引入最初的基本信度分配中就是不合理的。换句话说,如果一开始就有m(A,B)=0.8,那么证据理论就不会退化成概率论。综上,上述例子是不合理的。