条件信息熵的决策表约简

条件信息熵的决策表约简

本文使用信息论的观点对Rough Set理论进行研究,并且与代数观点进行对比。

写在前面

对决策表的描述如图所示:
在这里插入图片描述

信息论观点描述

使用熵还衡量某些 属性 的需要程度。

U:论域
U上任一属性集合(知识、等价关系簇) 是 定义在U上的子集组成e代数上的一个随机变量
此随机变量的概率分布可通过如下方式确定:

定义1:P,Q 概率分布

P,Q在U上导出的划分分别为X,Y X = { X 1 , X 2 , . . . , X n } , Y = { Y 1 , Y 2 , . . . , Y m } X=\{X_1,X_2,...,X_n\} ,Y = \{Y_1,Y_2,...,Y_m\} X={X1,X2,...,Xn},Y={Y1,Y2,...,Ym}),则P,QU的子集组成的e代数上的概率分布为
[ X : p ] = [ X 1 X 2 ⋯ X n p ( X 1 ) p ( X 2 ) ⋯ p ( X n ) ] [X:p] = \begin{bmatrix} X_1 & X_2 &\cdots & X_n \\ p(X_1) &p(X_2) & \cdots & p(X_n) \end{bmatrix} [X:p]=[X1p(X1)X2p(X2)Xnp(Xn)]
[ Y : p ] = [ Y 1 Y 2 ⋯ Y m p ( Y 1 ) p ( Y 2 ) ⋯ p ( Y m ) ] [Y:p] = \begin{bmatrix} Y_1 & Y_2 &\cdots & Y_m \\ p(Y_1) &p(Y_2) & \cdots & p(Y_m) \end{bmatrix} [Y:p]=[Y1p(Y1)Y2p(Y2)Ymp(Ym)]

其中:
P、Q是知识(属性集合);
p ( X i ) = ∣ X i ∣ ∣ U ∣ , i = { 1 , 2 , . . . , n } p(X_i)=\frac{| X_i |}{ | U |},i=\{1,2,...,n\} p(Xi)=UXii={1,2,...,n}
p ( Y j ) = ∣ Y j ∣ ∣ U ∣ , j = { 1 , 2 , . . . , m } p(Y_j)=\frac{| Y_j |}{ | U |},j=\{1,2,...,m\} p(Yj)=UYjj={1,2,...,m}

定义2:熵 H( P ) 定义

知识(属性集合)P 的熵 H( P ) 定义为
H ( P ) = − ∑ i = 1 n p ( X i ) l o g ( p ( X i ) ) H( P) = -\sum_{i=1}^n p(X_i)log( p(X_i)) H(P)=i=1np(Xi)log(p(Xi))

定义3:条件熵H(Q|P)定义

知识(属性集合) Q ( U ∣ I N D ( Q ) ) = { Y 1 , Y 2 , . . . , Y m } Q(U|IND(Q)) = \{Y_1,Y_2,...,Y_m\} Q(UIND(Q))={Y1,Y2,...,Ym}
相对于
知识(属性集合) P ( U ∣ I N D ( P ) ) = { X 1 , X 2 , . . . , X n } P(U|IND(P)) = \{X_1,X_2,...,X_n\} P(UIND(P))={X1,X2,...,Xn}
的条件熵H(Q|P)定义为:
H ( Q ∣ P ) = − ∑ i = 1 n p ( X i ) ∑ j = 1 m p ( Y j ∣ X i ) l o g ( p ( Y j ∣ X i ) ) H(Q|P)=-\sum_{i=1}^np(X_i)\sum_{j=1}^mp(Y_j|X_i)log(p(Y_j|X_i)) H(QP)=i=1np(Xi)j=1mp(YjXi)log(p(YjXi))

其中 p ( Y j ∣ X i ) = ∣ Y j ∩ X i ∣ ∣ X i ∣ ; i = { 1 , 2 , . . . , n } ; j = { 1 , 2 , . . . , m } p(Y_j|X_i) = \frac{|Y_j\cap X_i|}{|X_i|};i=\{1,2,...,n\};j=\{1,2,...,m\} p(YjXi)=XiYjXii={1,2,...,n}j={1,2,...,m}

机器学习中的信息论观点链接
IND( P ) 和 IND( Q ) 代表 等价关系(不可分辨关系)

设由属性集合 PD = { d }D是决策属性)导出的对论域 U = ( | U | = n) 的划分分别为: U ∣ I N D ( P ) = { X 1 , X 2 , . . . , X n } U | IND(P) =\{X_1,X_2,...,X_n\} UIND(P)={X1,X2,...,Xn} U ∣ I N D ( d ) = { Z 1 , Z 2 , . . . , Z s } U | IND({d}) =\{Z_1,Z_2,...,Z_s\} UIND(d)={Z1,Z2,...,Zs} 则可推导以下定理:

定理1:条件熵H(Q|P)计算

H ( D ∣ P ) = H ( D ∪ P ) − H ( P ) H(D|P)= H(D \cup P) - H(P) H(DP)=H(DP)H(P)

条件熵计算链接

定理2:不可分辨关系和熵

条件 :U是论域,P、QU上两个属性集合。
I N D ( Q ) = I N D ( P ) IND(Q) = IND( P) IND(Q)=IND(P),则 H ( Q ) = H ( P ) H(Q)=H( P) H(Q)=H(P)
I N D ( Q ) = I N D ( P ) ⟹ H ( Q ) = H ( P ) IND(Q) = IND( P) \Longrightarrow H(Q)=H( P) IND(Q)=IND(P)H(Q)=H(P)
Note:逆不成立

定理3:熵和不可分辨关系

条件 :U是论域,P、QU上两个属性集合,并且 P ⊆ Q P \subseteq Q PQ
H ( Q ) = H ( P ) H(Q)=H( P) H(Q)=H(P),则 I N D ( Q ) = I N D ( P ) IND(Q) = IND( P) IND(Q)=IND(P)

I N D ( Q ) = I N D ( P ) ⟹ H ( Q ) = H ( P ) IND(Q) = IND( P) \Longrightarrow H(Q)=H( P) IND(Q)=IND(P)H(Q)=H(P)

定理4:不必要属性和必要属性

条件 :U是论域,PU上一个属性集合,
P 中的属性 r不必要 的,其 充分必要 条件为:
H ( r ∣ P − r ) = 0 H({r}|P-{r}) = 0 H(rPr)=0

P 中的属性 r必要 的,其 充分必要 条件为:
H ( r ∣ P − r ) > 0 H({r}|P-{r}) > 0 H(rPr)>0

定理5:属性约简

条件 :U是论域,P、QU上一个属性集合, Q ⊆ P Q \subseteq P QPP的一个约简的充分必要条件为 H ( Q ) = H ( P ) H(Q)=H(P) H(Q)=H(P),且对任意的 q ∈ Q q \in Q qQ都有 H ( q ∣ Q − q ) > 0 H({q} | Q-{q}) > 0 H(qQq)>0

相对约简


以上仅仅是针对一般信息表约简的问题,而对于相对约简,有如下定理:


定理6:多余属性

条件 :U是论域,P、QU上一个条件属性集合,d 为决策属性,且论域 U 是在 P上相对于 {d}一致的 ( 含 义 : P O S p ( { d } ) = U ) (含义:POS_p(\{d\})=U) (POSp({d})=U),则属性rP相对于决策属性d不必要的(多余的),其充分必要条件为:
H ( { d } ∣ P ) = H ( { d } ∣ P − { r } ) H(\{d\}|P)=H(\{d\}|P-\{r\}) H({d}P)=H({d}P{r})

论域 U 是在 P上相对于 {d}一致的    ⟺    P O S p ( { d } ) = U \iff POS_p(\{d\})=U POSp({d})=U
证明:下次撰写。

定理7:独立

条件 :U是论域,P、QU上一个条件属性集合,d 为决策属性,且论域 U 是在 P上相对于 {d}一致的,则属性集合P是相对于决策属性d独立的(独立的:P中任意属性都是d不可省略的),其充分必要条件为:
H ( { d } ∣ P ) ! = H ( { d } ∣ P − { r } ) H(\{d\}|P) != H(\{d\}|P-\{r\}) H({d}P)!=H({d}P{r})

就是说对于决策属性dP中任意一个属性r都不能少

论域 U 是在 P上相对于 {d}一致的    ⟺    P O S p ( { d } ) = U \iff POS_p(\{d\})=U POSp({d})=U
属性集合P是相对于决策属性d独立的    ⟺    \iff P中任意属性都是决策属性d不可省略的
! = :不等于

定理8:约简

条件 :U是论域,P、QU上一个条件属性集合,d 为决策属性,且论域 U 是在 P上相对于 {d}一致的,则 Q ⊆ P Q \subseteq P QPP相对于决策属性d的一个 约简 的充分必要条件为:

H ( { d } ∣ Q ) = H ( { d } ∣ P ) H(\{d\}|Q) = H(\{d\}|P) H({d}Q)=H({d}P)Q是相对于决策属性d独立的

论域 U 是在 P上相对于 {d}一致的    ⟺    P O S p ( { d } ) = U \iff POS_p(\{d\})=U POSp({d})=U
属性集合Q是相对于决策属性d独立的    ⟺    \iff Q中任意属性都是决策属性d不可省略的


定理7、8的证明,根据定理6和相对独立与相对约简的定义可以得到。


属性重要性

  • 属性重要性 的知识约简中的一个重要概念,但是 属性重要性 在代数上和信息论上的定义是不一致的。
  • SGF(a,A,F)的值越大,说明在已知条件下,属性对决策D越重要。
  • 信息论定义 包含 代数定义

定义4:(属性重要性信息论观点)

:考虑的是该属性对论域中不确定分类子集的影响。

T = ( U , R , V , f ) T = (U,R,V,f) T=(U,R,V,f)是一个决策表系统,其中 R = C ∪ D R=C\cup D R=CDC是条件属性集合,D={d}是决策属性集合,且 A ∈ C A\in C AC,则对任意属性 a ∈ C − A a \in C-A aCA的重要性SGF(a,A,D)定义为:
S G F ( a , A , D ) = H ( D ∣ A ) − H ( D ∣ A ∪ { a } ) SGF(a,A,D)=H(D|A) - H(D|A\cup \{a\}) SGF(a,A,D)=H(DA)H(DA{a})

定义5:(属性重要性代数观点)

:考虑的是该属性对论域中确定分类子集的影响。

F是属性集D导出的分类,C是条件属性集合,D={d}是决策属性集合,且 A ⊂ C A\subset C AC,则对任意属性 a ∈ C − A a \in C-A aCA的重要性SGF(a,A,D)定义为:
S G F ( a , A , D ) = r A ∪ a ( F ) − r A ( F ) SGF(a,A,D)=r_{A\cup a}(F) - r_A(F) SGF(a,A,D)=rAa(F)rA(F)

公式解释:

P,Q:知识(属性集合)。
依赖度
Card(U ):U中对象数目
P O S P ( Q ) POS_P(Q) POSP(Q):Q的P正域    ⟺    ∪ P _ ( X ) \iff\cup P\_(X) P_(X)

解释:论域U中那些使用U/P所表达的知识,可以正确地划入到U/Q的等价类的对象集合中(个人理解: U / P / Q U/P/Q U/P/Q
图示
Link:依赖度详细解释链接

定理9:

如果 H ( D ∣ A ∪ { a } ) = H ( D ∣ A ) H(D|A\cup \{a\}) = H(D|A) H(DA{a})=H(DA) P O S A ∪ { a } ( F ) = P O S A ( F ) POS_{A\cup \{a\}}(F) =POS_A(F) POSA{a}(F)=POSA(F).

定理9引理:

论域为U,某个等价关系在U上形成的划分为 A 1 = X 1 , X 2 , . . . , X n A_1={X_1,X_2,...,X_n} A1=X1,X2,...,Xn,而 A 2 = { X 1 , X 2 , . . . , X i − 1 , X i + 1 , . . . , X j − 1 , X j + 1 , . . . , X n , X i ∪ X j } A_2=\{X_1,X_2,...,X_{i-1},X_{i+1},...,X_{j-1},X_{j+1},...,X_n,X_i \cup X_j \} A2={X1,X2,...,Xi1,Xi+1,...,Xj1,Xj+1,...,Xn,XiXj}是将划 A 1 A_1 A1中某两个等价块 X i X_i Xi X j X_j Xj合并为 X i ∪ X j X_i\cup X_j XiXj得到的新划分。 B = Y 1 , Y 2 , . . . , Y m B={Y_1,Y_2,...,Y_m} B=Y1,Y2,...,Ym也是U上的一个划分,且记:
H ( B ∣ A 1 ) = − ∑ i = 1 n p ( X i ) ∑ j = 1 m p ( Y j ∣ X i ) l o g ( p ( Y j ∣ X i ) ) H(B|A_1)=-\sum_{i=1}^np(X_i)\sum_{j=1}^mp(Y_j|X_i)log(p(Y_j|X_i)) H(BA1)=i=1np(Xi)j=1mp(YjXi)log(p(YjXi))
H ( B ∣ A 2 ) = H ( B ∣ A 1 ) − p ( X i ∪ X j ) ∑ k = 1 m p ( Y k ∣ X i ∪ X j ) l o g ( p ( Y k ∣ X i ∪ X j ) ) + p ( X i ) ∑ k = 1 m p ( Y k ∣ X i ) l o g ( p ( Y k ∣ X i ) ) + p ( X j ) ∑ k = 1 m p ( Y k ∣ X j ) l o g ( p ( Y k ∣ X j ) ) H(B|A_2)=H(B|A_1)-p(X_i \cup X_j)\sum_{k=1}^mp(Y_k|X_i \cup X_j)log(p(Y_k|X_i \cup X_j))+ p(X_i)\sum_{k=1}^mp(Y_k|X_i)log(p(Y_k|X_i))+ p(X_j)\sum_{k=1}^mp(Y_k|X_j)log(p(Y_k|X_j)) H(BA2)=H(BA1)p(XiXj)k=1mp(YkXiXj)log(p(YkXiXj))+p(Xi)k=1mp(YkXi)log(p(YkXi))+p(Xj)k=1mp(YkXj)log(p(YkXj))
则: H ( B ∣ A 2 ) ≥ H ( B ∣ A 1 ) H(B|A_2) \ge H(B|A_1) H(BA2)H(BA1)

引理证明:之后加上

如果将决策表属性的分类进行合并,将导致条件熵的单调上升,只有发生合并的两个分类对于决策类的隶属度(概率)相等的情况之下,才可能不会导致条件熵的变化。

条件信息熵的知识约简算法

若一个属性不能为另一个属性集合的分类增加任何信息,我们可以将它约简。

CEBARKCC算法:核属性为起点 ,由内到外增加属性。
CEBARKNC算法:所有属性为起点,由外到内减少属性。
MIBARK算法:条件属性和决策属性的互信息基础之上。

CEBARKCC算法

  • 以核属性为起点
  • 逐次使用 H ( D ∣ B ∪ { a } ) H(D|B\cup \{a\}) H(DB{a})最小的非核属性a添加到核属性集中
  • 直到 H ( D ∣ C ) = H ( D ∣ C ) H(D|C)= H(D|C) H(DC)=H(DC)

CEBARKNC算法

  • 决策参考重要度: H ( D ∣ { a } ) H(D|\{a\}) H(D{a}) ,越大参考重要度越小
  • 所有初始属性集
  • 逐步删除属性达到约简的目的

MIBARK算法

  • 以核属性为起点
  • 条件属性和决策属性的互信息作为判断条件,进行约简

核值比

决策表 T = ( U , C ∪ D , V , f ) T = (U,C\cup D,V,f) T=(U,CD,V,f)的核值比定义为:
核 值 比 b = 核 的 基 m 1 约 简 后 的 基 m 2 核值比 b = \frac{核的基m_1}{约简后的基m_2} b=m2m1

基:属性数目

时间复杂度

最后

  • 一般信息表,约简计算的代数定义 = 信息论定义
  • 一致决策表,约简计算的代数定义 = 信息论定义
  • 普通(包含矛盾、冲突)决策表,两种定义的 属性重要性 和 知识约简 不相同。(一个决策表的代数观点下的约简,不能保证约简之后的信息熵 不发生变化)。说知识约简的信息论观点包含代数观点。

想要阅读相关论文:《基于条件熵的决策表约简》 Guoyin Wang、Hong Yu、Dachun Yang

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值