条件信息熵的决策表约简
文章目录
本文使用信息论的观点对Rough Set理论进行研究,并且与代数观点进行对比。
写在前面
对决策表的描述如图所示:
信息论观点描述
使用熵还衡量某些 属性 的需要程度。
U:论域
U上任一属性集合(知识、等价关系簇) 是 定义在U上的子集组成e代数上的一个随机变量
此随机变量的概率分布可通过如下方式确定:
定义1:P,Q 概率分布
设P,Q
在U上导出的划分分别为X,Y
(
X
=
{
X
1
,
X
2
,
.
.
.
,
X
n
}
,
Y
=
{
Y
1
,
Y
2
,
.
.
.
,
Y
m
}
X=\{X_1,X_2,...,X_n\} ,Y = \{Y_1,Y_2,...,Y_m\}
X={X1,X2,...,Xn},Y={Y1,Y2,...,Ym}),则P,Q
在U
的子集组成的e
代数上的概率分布为
[
X
:
p
]
=
[
X
1
X
2
⋯
X
n
p
(
X
1
)
p
(
X
2
)
⋯
p
(
X
n
)
]
[X:p] = \begin{bmatrix} X_1 & X_2 &\cdots & X_n \\ p(X_1) &p(X_2) & \cdots & p(X_n) \end{bmatrix}
[X:p]=[X1p(X1)X2p(X2)⋯⋯Xnp(Xn)]
[
Y
:
p
]
=
[
Y
1
Y
2
⋯
Y
m
p
(
Y
1
)
p
(
Y
2
)
⋯
p
(
Y
m
)
]
[Y:p] = \begin{bmatrix} Y_1 & Y_2 &\cdots & Y_m \\ p(Y_1) &p(Y_2) & \cdots & p(Y_m) \end{bmatrix}
[Y:p]=[Y1p(Y1)Y2p(Y2)⋯⋯Ymp(Ym)]
其中:
P、Q
是知识(属性集合);
p
(
X
i
)
=
∣
X
i
∣
∣
U
∣
,
i
=
{
1
,
2
,
.
.
.
,
n
}
p(X_i)=\frac{| X_i |}{ | U |},i=\{1,2,...,n\}
p(Xi)=∣U∣∣Xi∣,i={1,2,...,n};
p
(
Y
j
)
=
∣
Y
j
∣
∣
U
∣
,
j
=
{
1
,
2
,
.
.
.
,
m
}
p(Y_j)=\frac{| Y_j |}{ | U |},j=\{1,2,...,m\}
p(Yj)=∣U∣∣Yj∣,j={1,2,...,m}。
定义2:熵 H( P ) 定义
知识(属性集合)P 的熵 H( P ) 定义为
H
(
P
)
=
−
∑
i
=
1
n
p
(
X
i
)
l
o
g
(
p
(
X
i
)
)
H( P) = -\sum_{i=1}^n p(X_i)log( p(X_i))
H(P)=−i=1∑np(Xi)log(p(Xi))
定义3:条件熵H(Q|P)
定义
知识(属性集合)
Q
(
U
∣
I
N
D
(
Q
)
)
=
{
Y
1
,
Y
2
,
.
.
.
,
Y
m
}
Q(U|IND(Q)) = \{Y_1,Y_2,...,Y_m\}
Q(U∣IND(Q))={Y1,Y2,...,Ym}
相对于
知识(属性集合)
P
(
U
∣
I
N
D
(
P
)
)
=
{
X
1
,
X
2
,
.
.
.
,
X
n
}
P(U|IND(P)) = \{X_1,X_2,...,X_n\}
P(U∣IND(P))={X1,X2,...,Xn}
的条件熵H(Q|P)
定义为:
H
(
Q
∣
P
)
=
−
∑
i
=
1
n
p
(
X
i
)
∑
j
=
1
m
p
(
Y
j
∣
X
i
)
l
o
g
(
p
(
Y
j
∣
X
i
)
)
H(Q|P)=-\sum_{i=1}^np(X_i)\sum_{j=1}^mp(Y_j|X_i)log(p(Y_j|X_i))
H(Q∣P)=−i=1∑np(Xi)j=1∑mp(Yj∣Xi)log(p(Yj∣Xi))
其中 p ( Y j ∣ X i ) = ∣ Y j ∩ X i ∣ ∣ X i ∣ ; i = { 1 , 2 , . . . , n } ; j = { 1 , 2 , . . . , m } p(Y_j|X_i) = \frac{|Y_j\cap X_i|}{|X_i|};i=\{1,2,...,n\};j=\{1,2,...,m\} p(Yj∣Xi)=∣Xi∣∣Yj∩Xi∣;i={1,2,...,n};j={1,2,...,m} 。
机器学习中的信息论观点链接
IND( P ) 和 IND( Q ) 代表 等价关系(不可分辨关系)
设由属性集合 P
和 D = { d }
(D是决策属性)导出的对论域 U = ( | U | = n)
的划分分别为:
U
∣
I
N
D
(
P
)
=
{
X
1
,
X
2
,
.
.
.
,
X
n
}
U | IND(P) =\{X_1,X_2,...,X_n\}
U∣IND(P)={X1,X2,...,Xn}和
U
∣
I
N
D
(
d
)
=
{
Z
1
,
Z
2
,
.
.
.
,
Z
s
}
U | IND({d}) =\{Z_1,Z_2,...,Z_s\}
U∣IND(d)={Z1,Z2,...,Zs} 则可推导以下定理:
定理1:条件熵H(Q|P)
计算
H ( D ∣ P ) = H ( D ∪ P ) − H ( P ) H(D|P)= H(D \cup P) - H(P) H(D∣P)=H(D∪P)−H(P)
定理2:不可分辨关系和熵
条件 :U
是论域,P、Q
是U
上两个属性集合。
若
I
N
D
(
Q
)
=
I
N
D
(
P
)
IND(Q) = IND( P)
IND(Q)=IND(P),则
H
(
Q
)
=
H
(
P
)
H(Q)=H( P)
H(Q)=H(P)。
I
N
D
(
Q
)
=
I
N
D
(
P
)
⟹
H
(
Q
)
=
H
(
P
)
IND(Q) = IND( P) \Longrightarrow H(Q)=H( P)
IND(Q)=IND(P)⟹H(Q)=H(P)
Note:逆不成立
定理3:熵和不可分辨关系
条件 :U
是论域,P、Q
是U
上两个属性集合,并且
P
⊆
Q
P \subseteq Q
P⊆Q。
若
H
(
Q
)
=
H
(
P
)
H(Q)=H( P)
H(Q)=H(P),则
I
N
D
(
Q
)
=
I
N
D
(
P
)
IND(Q) = IND( P)
IND(Q)=IND(P)。
I N D ( Q ) = I N D ( P ) ⟹ H ( Q ) = H ( P ) IND(Q) = IND( P) \Longrightarrow H(Q)=H( P) IND(Q)=IND(P)⟹H(Q)=H(P)
定理4:不必要属性和必要属性
条件 :U
是论域,P
是U
上一个属性集合,
P
中的属性 r
是 不必要 的,其 充分必要 条件为:
H
(
r
∣
P
−
r
)
=
0
H({r}|P-{r}) = 0
H(r∣P−r)=0
P
中的属性 r
是 必要 的,其 充分必要 条件为:
H
(
r
∣
P
−
r
)
>
0
H({r}|P-{r}) > 0
H(r∣P−r)>0
定理5:属性约简
条件 :U
是论域,P、Q
是U
上一个属性集合,
Q
⊆
P
Q \subseteq P
Q⊆P是P
的一个约简的充分必要条件为
H
(
Q
)
=
H
(
P
)
H(Q)=H(P)
H(Q)=H(P),且对任意的
q
∈
Q
q \in Q
q∈Q都有
H
(
q
∣
Q
−
q
)
>
0
H({q} | Q-{q}) > 0
H(q∣Q−q)>0
相对约简
以上仅仅是针对一般信息表约简的问题,而对于相对约简,有如下定理:
定理6:多余属性
条件 :U
是论域,P、Q
是U
上一个条件属性集合,d
为决策属性,且论域 U
是在 P
上相对于 {d}
一致的
(
含
义
:
P
O
S
p
(
{
d
}
)
=
U
)
(含义:POS_p(\{d\})=U)
(含义:POSp({d})=U),则属性r
是P
相对于决策属性d
不必要的(多余的),其充分必要条件为:
H
(
{
d
}
∣
P
)
=
H
(
{
d
}
∣
P
−
{
r
}
)
H(\{d\}|P)=H(\{d\}|P-\{r\})
H({d}∣P)=H({d}∣P−{r})
论域
U
是在P
上相对于{d}
一致的    ⟺    P O S p ( { d } ) = U \iff POS_p(\{d\})=U ⟺POSp({d})=U
证明:下次撰写。
定理7:独立
条件 :U
是论域,P、Q
是U
上一个条件属性集合,d
为决策属性,且论域 U
是在 P
上相对于 {d}
一致的,则属性集合P
是相对于决策属性d
独立的(独立的:P
中任意属性都是d
不可省略的),其充分必要条件为:
H
(
{
d
}
∣
P
)
!
=
H
(
{
d
}
∣
P
−
{
r
}
)
H(\{d\}|P) != H(\{d\}|P-\{r\})
H({d}∣P)!=H({d}∣P−{r})
就是说对于决策属性d
,P
中任意一个属性r
都不能少
论域
U
是在P
上相对于{d}
一致的    ⟺    P O S p ( { d } ) = U \iff POS_p(\{d\})=U ⟺POSp({d})=U
属性集合P
是相对于决策属性d
独立的    ⟺    \iff ⟺P
中任意属性都是决策属性d
不可省略的
! = :不等于
定理8:约简
条件 :U
是论域,P、Q
是U
上一个条件属性集合,d
为决策属性,且论域 U
是在 P
上相对于 {d}
一致的,则
Q
⊆
P
Q \subseteq P
Q⊆P是P
相对于决策属性d
的一个 约简 的充分必要条件为:
H
(
{
d
}
∣
Q
)
=
H
(
{
d
}
∣
P
)
H(\{d\}|Q) = H(\{d\}|P)
H({d}∣Q)=H({d}∣P) 且 Q
是相对于决策属性d
独立的
论域
U
是在P
上相对于{d}
一致的    ⟺    P O S p ( { d } ) = U \iff POS_p(\{d\})=U ⟺POSp({d})=U
属性集合Q
是相对于决策属性d
独立的    ⟺    \iff ⟺Q
中任意属性都是决策属性d
不可省略的
定理7、8的证明,根据定理6和相对独立与相对约简的定义可以得到。
属性重要性
- 属性重要性 的知识约简中的一个重要概念,但是 属性重要性 在代数上和信息论上的定义是不一致的。
- SGF(a,A,F)的值越大,说明在已知条件下,属性对决策D越重要。
- 信息论定义 包含 代数定义
定义4:(属性重要性信息论观点)
:考虑的是该属性对论域中不确定分类子集的影响。
设
T
=
(
U
,
R
,
V
,
f
)
T = (U,R,V,f)
T=(U,R,V,f)是一个决策表系统,其中
R
=
C
∪
D
R=C\cup D
R=C∪D,C
是条件属性集合,D={d}
是决策属性集合,且
A
∈
C
A\in C
A∈C,则对任意属性
a
∈
C
−
A
a \in C-A
a∈C−A的重要性SGF(a,A,D)
定义为:
S
G
F
(
a
,
A
,
D
)
=
H
(
D
∣
A
)
−
H
(
D
∣
A
∪
{
a
}
)
SGF(a,A,D)=H(D|A) - H(D|A\cup \{a\})
SGF(a,A,D)=H(D∣A)−H(D∣A∪{a})
定义5:(属性重要性代数观点)
:考虑的是该属性对论域中确定分类子集的影响。
F
是属性集D
导出的分类,C
是条件属性集合,D={d}
是决策属性集合,且
A
⊂
C
A\subset C
A⊂C,则对任意属性
a
∈
C
−
A
a \in C-A
a∈C−A的重要性SGF(a,A,D)
定义为:
S
G
F
(
a
,
A
,
D
)
=
r
A
∪
a
(
F
)
−
r
A
(
F
)
SGF(a,A,D)=r_{A\cup a}(F) - r_A(F)
SGF(a,A,D)=rA∪a(F)−rA(F)
公式解释:
P,Q:知识(属性集合)。
Card(U ):U中对象数目
P O S P ( Q ) POS_P(Q) POSP(Q):Q的P正域    ⟺    ∪ P _ ( X ) \iff\cup P\_(X) ⟺∪P_(X) ;解释:论域U中那些使用U/P所表达的知识,可以正确地划入到U/Q的等价类的对象集合中(个人理解: U / P / Q U/P/Q U/P/Q)
Link:依赖度详细解释链接
定理9:
如果 H ( D ∣ A ∪ { a } ) = H ( D ∣ A ) H(D|A\cup \{a\}) = H(D|A) H(D∣A∪{a})=H(D∣A) 则 P O S A ∪ { a } ( F ) = P O S A ( F ) POS_{A\cup \{a\}}(F) =POS_A(F) POSA∪{a}(F)=POSA(F).
定理9引理:
论域为U
,某个等价关系在U上形成的划分为
A
1
=
X
1
,
X
2
,
.
.
.
,
X
n
A_1={X_1,X_2,...,X_n}
A1=X1,X2,...,Xn,而
A
2
=
{
X
1
,
X
2
,
.
.
.
,
X
i
−
1
,
X
i
+
1
,
.
.
.
,
X
j
−
1
,
X
j
+
1
,
.
.
.
,
X
n
,
X
i
∪
X
j
}
A_2=\{X_1,X_2,...,X_{i-1},X_{i+1},...,X_{j-1},X_{j+1},...,X_n,X_i \cup X_j \}
A2={X1,X2,...,Xi−1,Xi+1,...,Xj−1,Xj+1,...,Xn,Xi∪Xj}是将划
A
1
A_1
A1中某两个等价块
X
i
X_i
Xi、
X
j
X_j
Xj合并为
X
i
∪
X
j
X_i\cup X_j
Xi∪Xj得到的新划分。
B
=
Y
1
,
Y
2
,
.
.
.
,
Y
m
B={Y_1,Y_2,...,Y_m}
B=Y1,Y2,...,Ym也是U
上的一个划分,且记:
H
(
B
∣
A
1
)
=
−
∑
i
=
1
n
p
(
X
i
)
∑
j
=
1
m
p
(
Y
j
∣
X
i
)
l
o
g
(
p
(
Y
j
∣
X
i
)
)
H(B|A_1)=-\sum_{i=1}^np(X_i)\sum_{j=1}^mp(Y_j|X_i)log(p(Y_j|X_i))
H(B∣A1)=−i=1∑np(Xi)j=1∑mp(Yj∣Xi)log(p(Yj∣Xi))
H
(
B
∣
A
2
)
=
H
(
B
∣
A
1
)
−
p
(
X
i
∪
X
j
)
∑
k
=
1
m
p
(
Y
k
∣
X
i
∪
X
j
)
l
o
g
(
p
(
Y
k
∣
X
i
∪
X
j
)
)
+
p
(
X
i
)
∑
k
=
1
m
p
(
Y
k
∣
X
i
)
l
o
g
(
p
(
Y
k
∣
X
i
)
)
+
p
(
X
j
)
∑
k
=
1
m
p
(
Y
k
∣
X
j
)
l
o
g
(
p
(
Y
k
∣
X
j
)
)
H(B|A_2)=H(B|A_1)-p(X_i \cup X_j)\sum_{k=1}^mp(Y_k|X_i \cup X_j)log(p(Y_k|X_i \cup X_j))+ p(X_i)\sum_{k=1}^mp(Y_k|X_i)log(p(Y_k|X_i))+ p(X_j)\sum_{k=1}^mp(Y_k|X_j)log(p(Y_k|X_j))
H(B∣A2)=H(B∣A1)−p(Xi∪Xj)k=1∑mp(Yk∣Xi∪Xj)log(p(Yk∣Xi∪Xj))+p(Xi)k=1∑mp(Yk∣Xi)log(p(Yk∣Xi))+p(Xj)k=1∑mp(Yk∣Xj)log(p(Yk∣Xj))
则:
H
(
B
∣
A
2
)
≥
H
(
B
∣
A
1
)
H(B|A_2) \ge H(B|A_1)
H(B∣A2)≥H(B∣A1)
引理证明:之后加上
如果将决策表属性的分类进行合并,将导致条件熵的单调上升,只有发生合并的两个分类对于决策类的隶属度(概率)相等的情况之下,才可能不会导致条件熵的变化。
条件信息熵的知识约简算法
若一个属性不能为另一个属性集合的分类增加任何信息,我们可以将它约简。
CEBARKCC算法:核属性为起点 ,由内到外增加属性。
CEBARKNC算法:所有属性为起点,由外到内减少属性。
MIBARK算法:条件属性和决策属性的互信息基础之上。
CEBARKCC算法
- 以核属性为起点
- 逐次使用 H ( D ∣ B ∪ { a } ) H(D|B\cup \{a\}) H(D∣B∪{a})最小的非核属性a添加到核属性集中
- 直到 H ( D ∣ C ) = H ( D ∣ C ) H(D|C)= H(D|C) H(D∣C)=H(D∣C)
CEBARKNC算法
- 决策参考重要度: H ( D ∣ { a } ) H(D|\{a\}) H(D∣{a}) ,越大参考重要度越小
- 所有初始属性集
- 逐步删除属性达到约简的目的
MIBARK算法
- 以核属性为起点
- 条件属性和决策属性的互信息作为判断条件,进行约简
核值比
决策表
T
=
(
U
,
C
∪
D
,
V
,
f
)
T = (U,C\cup D,V,f)
T=(U,C∪D,V,f)的核值比定义为:
核
值
比
b
=
核
的
基
m
1
约
简
后
的
基
m
2
核值比 b = \frac{核的基m_1}{约简后的基m_2}
核值比b=约简后的基m2核的基m1
基:属性数目
最后
- 一般信息表,约简计算的代数定义 = 信息论定义
- 一致决策表,约简计算的代数定义 = 信息论定义
- 普通(包含矛盾、冲突)决策表,两种定义的 属性重要性 和 知识约简 不相同。(一个决策表的代数观点下的约简,不能保证约简之后的信息熵 不发生变化)。说知识约简的信息论观点包含代数观点。
想要阅读相关论文:《基于条件熵的决策表约简》 Guoyin Wang、Hong Yu、Dachun Yang