两个类别间可靠性差异的差异指标
用于可靠性分类的差异指标
本部分提出一种基于矩矩阵分析的差异指标用于可靠的分类。在此,可靠性用于描述矩矩阵相对于分类样本分组的可变性。特别地,如果从训练集生成的矩矩阵与验证集生成的矩矩阵具有相同的属性,则称该矩矩阵在训练集和验证集之间是可靠的。需要注意的是,模型参数,例如提出的差异指标,由验证集确定。然而,一个分类器的泛化性能是基于测试集获得的。验证集和测试集之间没有重叠,因此训练过程中不涉及测试数据。
通过广义特征值分解(GED),我们提出差异指标显示两个矩矩阵之间的差异。广义特征值分解找到了一个公共的线性变换矩阵,该矩阵同时对角化了两个矩矩阵。特殊地,令
S
t
r
\textbf{S}_{tr}
Str和
S
v
a
\textbf{S}_{va}
Sva分别表示从测试集和验证集产生的对称矩矩阵。首先,
S
t
r
\textbf{S}_{tr}
Str通过奇异值(SVD)分解表示为
S
t
r
=
U
D
t
r
U
T
\textbf{S}_{tr}=\textbf{U}\textbf{D}_{tr}\textbf{U}^{T}
Str=UDtrUT其中
U
\textbf{U}
U是正交矩阵,
D
t
r
\textbf{D}_{tr}
Dtr是一个对角矩阵。假设
D
t
r
\textbf{D}_{tr}
Dtr满秩并定义
P
:
=
U
D
t
r
−
1
2
\textbf{P}:=\textbf{U}\textbf{D}_{tr}^{\frac{-1}{2}}
P:=UDtr2−1,
S
t
r
\textbf{S}_{tr}
Str满足
P
T
S
t
r
P
=
I
\textbf{P}^{T}\textbf{S}_{tr}\textbf{P}=\textbf{I}
PTStrP=I。不失一般性地,
D
t
r
\textbf{D}_{tr}
Dtr地对角元素降序排列。然后,
P
T
S
v
a
P
\textbf{P}^{T}\textbf{S}_{va}\textbf{P}
PTSvaP做如下分解
P
T
S
v
a
P
=
V
D
v
a
V
T
\textbf{P}^{T}\textbf{S}_{va}\textbf{P}=\textbf{V}\textbf{D}_{va}\textbf{V}^{T}
PTSvaP=VDvaVT,其中
V
\textbf{V}
V是正交矩阵,
D
v
a
\textbf{D}_{va}
Dva为对角矩阵。基于以上两个步骤,
S
v
a
\textbf{S}_{va}
Sva可以明确的对角化为
V
T
P
T
S
v
a
PV
=
D
v
a
\textbf{V}^{T}\textbf{P}^{T}\textbf{S}_{va}\textbf{P}\textbf{V}=\textbf{D}_{va}
VTPTSvaPV=Dva。最后,定义
A
=
PV
=
UD
t
r
−
1
2
V
\textbf{A}=\textbf{PV}=\textbf{UD}_{tr}^{\frac{-1}{2}}\textbf{V}
A=PV=UDtr2−1V且
A
\textbf{A}
A可以直接展示两个矩阵的全局对角化为
A
T
S
t
r
A
=
I
,
A
T
S
v
a
A
=
D
v
a
(1)
\textbf{A}^{T}\textbf{S}_{tr}\textbf{A}=\textbf{I},\textbf{A}^{T}\textbf{S}_{va}\textbf{A}=\textbf{D}_{va}\tag{1}
ATStrA=I,ATSvaA=Dva(1).
总之,
S
t
r
\textbf{S}_{tr}
Str和
S
v
a
\textbf{S}_{va}
Sva能够被同一个变换矩阵
A
\textbf{A}
A对角化为
I
I
I和
D
v
a
\textbf{D}_{va}
Dva。
使用广义特征值分解比较矩阵的想法如图1所示。由于 S t r \textbf{S}_{tr} Str和 S v a \textbf{S}_{va} Sva被同一个变换矩阵 A \textbf{A} A转化为相应的对角矩阵,通过使用两个对角形式的矩阵比较这两个矩阵成为可能。换句话说, S t r \textbf{S}_{tr} Str和 S v a \textbf{S}_{va} Sva之间的差异可以通过两个变换后的矩阵 I I I和 D v a \textbf{D}_{va} Dva的对角元素的差异进行评估。由于 I I I是单位矩阵, D v a \textbf{D}_{va} Dva的对角元素的值正好是与单位对角元素的比率,因此它们可以表示差异。
为了详细说明该思想,采用实际数据集来说明
S
t
r
\textbf{S}_{tr}
Str和
S
v
a
\textbf{S}_{va}
Sva之间的差异。实际数据集“ WDBC”是从UCI数据库中获得的[9]。 且该数据集具备代表性,并且我们发现其他数据集也具有相似的属性。
WDBC集总共包含569个样本,其中包括357个正样本和212个负样本,样本维度为30。整个数据集被随机分为两个相等的子集,分别用于训练和验证。基于这两个子集生成
S
t
r
\textbf{S}_{tr}
Str和
S
v
a
\textbf{S}_{va}
Sva,并且同时分别对角化为矩阵
I
I
I和
D
v
a
\textbf{D}_{va}
Dva。 为了考虑统计差异,将随机分区和同时对角化的过程重复100次。
图2(a)显示了来自100次试验的
I
I
I和
D
v
a
\textbf{D}_{va}
Dva对角元素的平均值。 从该图中可以看出,被比较的矩阵的每对对角元素之间都存在很大的差异。 注意,大的差异(
D
v
a
\textbf{D}_{va}
Dva的大对角元素)构成了差异总和的大部分内容。因此,基于差异的大部分内容,一个差异指标被定义为
D
I
(
β
)
=
∑
i
=
1
⌈
n
×
β
⌉
∣
d
v
a
(
i
)
−
1
∣
(2)
DI(\beta)=\sum_{i=1}^{\lceil{n\times\beta}\rceil}{|d_{va}(i)-1|}\tag{2}
DI(β)=i=1∑⌈n×β⌉∣dva(i)−1∣(2),其中
n
n
n表示
D
D
D的维度,
⌈
⋅
⌉
\lceil\cdot\rceil
⌈⋅⌉表示整数舍入运算符,
∣
⋅
∣
|\cdot|
∣⋅∣是运算符的绝对值,
d
v
a
(
i
)
d_{va}(i)
dva(i)表示
D
v
a
\textbf{D}_{va}
Dva的第
i
i
i个对角元素,且
β
∈
[
0
,
1
]
\beta\in[0,1]
β∈[0,1]表示差异的大部分内容所占差异总和的比例。为了显示比率参数
β
\beta
β对
D
I
(
β
)
DI(\beta)
DI(β)的影响,图2(b)绘制了来自100次试验的差异指标的平均值随
β
\beta
β的变化情况。
从该图可以明显看出,差异指标提供了一种定量方法,用于测量图2(a)中对角元素之间的相对差异。 可以看出
D
I
(
β
)
DI(\beta)
DI(β)的平均值是
β
\beta
β的单调递增函数。 随着
β
\beta
β的增加,计算中将涉及更多对角线元素,并且差异指标
D
I
(
β
)
DI(\beta)
DI(β)接近总差异之和。 下一小节中,将表明选择一个简单的
β
\beta
β(例如
β
=
0.5
\beta=0.5
β=0.5)就足以采用
D
I
(
β
)
DI(\beta)
DI(β)来表示两个类别之间的可靠性差异。
差异指标表示的可靠性差异
令 S = S n + S p \textbf{S}=\textbf{S}_n+\textbf{S}_p S=Sn+Sp由两个与类有关的二阶矩矩阵 S n \textbf{S}_n Sn和 S p \textbf{S}_p Sp组成。 显然, S \textbf{S} S的属性由矩阵 S n \textbf{S}_n Sn和 S p \textbf{S}_p Sp的属性确定。 在下文中,我们表明可以基于差异指标 D I ( β ) DI(\beta) DI(β)来评估 S n \textbf{S}_n Sn和 S p \textbf{S}_p Sp的可靠性。 使用组合的下标分别表示训练集和验证集之间的 S n \textbf{S}_n Sn和 S p \textbf{S}_p Sp矩阵。 例如, S n , t r \textbf{S}_{n,tr} Sn,tr和 S n , v a \textbf{S}_{n,va} Sn,va分别表示与训练集和验证集相关联的负类矩矩阵。
对于与训练和验证集相关的类相关矩矩阵,它们的GED变换矩阵的对角元素,和相应的差异指标分别由图3(a)和图3(b)显示。从这两张图中可以清楚地看到,相对于这两类,变换后的对角元素的差异是不同的。特别地,在图3(a)中,与 S n \textbf{S}_n Sn相关联的每个对角元素大于与 S p \textbf{S}_p Sp相关联的对应对角元素。
图3(b)中的差异指标明确表明了这两种与类有关的矩矩阵之间的差异。特别地,对于每个 β \beta β的设置,可以看出对于 S n \textbf{S}_n Sn的差异指标的平均值大于对于 S p \textbf{S}_p Sp的差异指标的平均值。无疑,训练和验证集之间的相对较大的失配值表示相对不可靠的矩矩阵。因此,在该示例中,考虑到 S p \textbf{S}_p Sp具有较低的 D I ( β ) DI(\beta) DI(β)值,所以矩阵 S p \textbf{S}_p Sp比矩阵 S n \textbf{S}_n Sn更可靠。值得注意的是,在图3(b)中,每个评估比率 β ∈ [ 0 , 1 ] \beta\in[0,1] β∈[0,1]始终能表示出可靠性差异。下文中,如果没有另外提及,则在所有实验中均采用 β = 0.5 \beta=0.5 β=0.5来评估差异指标。
矩阵比较的相关指标
值得指出的是,差异指标 D I ( β ) DI(\beta) DI(β)的目的是显示分类矩阵相对于样本分组的可靠性差异。这个目标与矩阵比较的指标不同[10,11]。矩阵比较的目的是显示两个矩阵之间的差异。不同的目标导致不同的计算程序。我们认为,由差异指标 D I ( β ) DI(\beta) DI(β)计算出的粗略指标或甚至类似0/1的指标就足以表示两种类别之间的可靠性差异。如图3(b)所示,相对于所有的 β \beta β值, D I ( β ) DI(\beta) DI(β)能始终表明两个类别之间的可靠性差异。差异指标的这种一致性暗示仅特征值的一部分就足以显示可靠性差异。相反,度量的计算中为了显示两个比较矩阵之间的差异,需要所有特征值[10-13]。
对于矩阵比较,在矩阵比较中需要例如置换不变性和非负性等某些属性,并导致现有指标中的非线性函数的使用。在正则化的情况下,非线性函数可能会导致矩阵可靠性的错误指示。关于文献中提出的度量,例如,[10,11,13],从理论上讲,尽管大多数度量标准被用作一般的矩阵差异指标,但它们可能并不适合于矩阵可靠性指示的目标。例如,两个现有的用于矩阵比较的指标
M
1
(
S
1
,
S
2
)
=
∑
i
=
1
n
l
o
g
2
d
(
i
)
M1(\textbf{S}_1,\textbf{S}_2)=\sqrt{\sum_{i=1}^{n}log^2d(i)}
M1(S1,S2)=∑i=1nlog2d(i)和
M
2
(
S
1
,
S
2
)
=
2
∑
k
=
1
n
(
v
k
11
−
v
k
21
)
2
−
(
v
k
12
−
v
k
22
)
2
M2(\textbf{S}_1,\textbf{S}_2)=2\sum_{k=1}^{n}{(v_{k11}-v_{k21})}^2-{(v_{k12}-v_{k22})}^2
M2(S1,S2)=2∑k=1n(vk11−vk21)2−(vk12−vk22)2。
S
1
\textbf{S}_1
S1和
S
2
\textbf{S}_2
S2代表两个大小为
n
n
n的用于比较的协方差矩阵,
d
(
i
)
d(i)
d(i)表示
∣
d
S
1
−
S
2
∣
=
0
|d\textbf{S}_1-\textbf{S}_2|=0
∣dS1−S2∣=0的第
i
i
i个特征值[10],
v
k
l
m
,
l
,
m
=
1
,
2
v_{klm},l,m=1,2
vklm,l,m=1,2是矩阵
S
l
\textbf{S}_l
Sl中的总样本方差量,由矩阵
S
m
\textbf{S}_m
Sm的第
k
k
k个特征向量表示。遵循这两个指标,可以将两个差异度量定义为:
D
I
l
o
g
(
β
)
=
∑
i
=
1
⌈
n
×
β
⌉
l
o
g
2
(
d
v
a
(
i
)
)
(3)
DI^{log}(\beta)=\sum_{i=1}^{\lceil{n\times\beta}\rceil}{log^2(d_{va}(i))}\tag{3}
DIlog(β)=i=1∑⌈n×β⌉log2(dva(i))(3)
D
I
G
(
β
)
=
∑
k
=
1
⌈
n
×
β
⌉
(
v
k
11
−
v
k
21
)
2
−
(
v
k
12
−
v
k
22
)
2
(4)
DI^{G}(\beta)=\sum_{k=1}^{\lceil{n\times\beta}\rceil}{{(v_{k11}-v_{k21})}^2-{(v_{k12}-v_{k22})}^2}\tag{4}
DIG(β)=k=1∑⌈n×β⌉(vk11−vk21)2−(vk12−vk22)2(4)其中
⌈
⋅
⌉
\lceil\cdot\rceil
⌈⋅⌉表示整数舍入运算符,
β
\beta
β控制着用于计算的大多数元素所占总元素的比例。
使用上述两个差异指标(3)和(4)进行矩阵可靠性指示的一个问题在于由函数 l o g ( ⋅ ) log(\cdot) log(⋅)和 ( ⋅ ) 2 (\cdot)^2 (⋅)2分别引入的非线性。图4显示了以上两种差异指标与我们提出的 D I l o g ( β ) DI^{log}(\beta) DIlog(β)之间的比较。在图4(a)-(c)中,纯矩阵 S p \textbf{S}_p Sp和 S n \textbf{S}_n Sn的可靠性差异分别由这三种相互比较的方法表示。可以看出,对于每个 β \beta β值,这三个量度均可以一致地指示 S p \textbf{S}_p Sp和 S n \textbf{S}_n Sn之间的可靠性差异。