条件信息熵的决策表约简

最新推荐文章于 2024-05-25 18:29:12 发布

翻滚de蛋炒饭

最新推荐文章于 2024-05-25 18:29:12 发布

阅读量1.3k

点赞数 1

分类专栏：粒计算和知识发现文章标签：决策表属性约简条件信息熵信息论

本文链接：https://blog.csdn.net/qq_36739040/article/details/100070870

版权

粒计算和知识发现专栏收录该内容

5 篇文章 7 订阅

订阅专栏

条件信息熵的决策表约简

本文使用信息论的观点对Rough Set理论进行研究，并且与代数观点进行对比。

写在前面

对决策表的描述如图所示：
在这里插入图片描述

信息论观点描述

使用熵还衡量某些属性的需要程度。

U：论域
U上任一属性集合（知识、等价关系簇） 是定义在U上的子集组成e代数上的一个随机变量
此随机变量的概率分布可通过如下方式确定：

定义1：P，Q 概率分布

设P，Q在U上导出的划分分别为X，Y（ $X=\{X_1,X_2,...,X_n\} ,Y = \{Y_1,Y_2,...,Y_m\}$ ），则P，Q在U的子集组成的e代数上的概率分布为
$\begin{bmatrix} X_1 & X_2 &\cdots & X_n \\ p(X_1) &p(X_2) & \cdots & p(X_n) \end{bmatrix}$
$\begin{bmatrix} Y_1 & Y_2 &\cdots & Y_m \\ p(Y_1) &p(Y_2) & \cdots & p(Y_m) \end{bmatrix}$

其中：
P、Q是知识（属性集合）；
$p(X_i)=\frac{| X_i |}{ | U |}，i=\{1,2,...,n\}$ ；
$p(Y_j)=\frac{| Y_j |}{ | U |}，j=\{1,2,...,m\}$ 。

定义2：熵 H( P ) 定义

知识（属性集合）P 的熵 H( P ) 定义为
$-\sum_{i=1}^n p(X_i)log( p(X_i))$

定义3：条件熵`H(Q|P)`定义

知识（属性集合） $Q(U|IND(Q)) = \{Y_1,Y_2,...,Y_m\}$
相对于
知识（属性集合） $P(U|IND(P)) = \{X_1,X_2,...,X_n\}$
的条件熵H(Q|P)定义为：
$H(Q|P)=-\sum_{i=1}^np(X_i)\sum_{j=1}^mp(Y_j|X_i)log(p(Y_j|X_i))$

其中 $p(Y_j|X_i) = \frac{|Y_j\cap X_i|}{|X_i|}；i=\{1,2,...,n\}；j=\{1,2,...,m\}$ 。

机器学习中的信息论观点链接
IND( P ) 和 IND( Q ) 代表等价关系（不可分辨关系）

设由属性集合 P 和 D = { d }（D是决策属性）导出的对论域 U = ( | U | = n) 的划分分别为： $U | IND(P) =\{X_1,X_2,...,X_n\}$ 和 $U | IND({d}) =\{Z_1,Z_2,...,Z_s\}$ 则可推导以下定理：

定理1：条件熵`H(Q|P)`计算

$\cup P) - H(P)$

条件熵计算链接

定理2：不可分辨关系和熵

条件：U是论域，P、Q是U上两个属性集合。
若 $I N D (Q) = I N D (P)$ ，则 $H (Q) = H (P)$ 。
$\Longrightarrow H(Q)=H( P)$
Note：逆不成立

定理3：熵和不可分辨关系

条件：U是论域，P、Q是U上两个属性集合，并且 $\subseteq Q$ 。
若 $H (Q) = H (P)$ ，则 $I N D (Q) = I N D (P)$ 。

$\Longrightarrow H(Q)=H( P)$

定理4：不必要属性和必要属性

条件：U是论域，P是U上一个属性集合，
P 中的属性 r 是 不必要 的，其 充分必要 条件为：
$H({r}|P-{r}) = 0$

P 中的属性 r 是必要的，其 充分必要 条件为：
$H({r}|P-{r}) > 0$

定理5：属性约简

条件：U是论域，P、Q是U上一个属性集合， $\subseteq P$ 是P的一个约简的充分必要条件为 $H (Q) = H (P)$ ，且对任意的 $\in Q$ 都有 $H({q} | Q-{q}) > 0$

相对约简

以上仅仅是针对一般信息表约简的问题，而对于相对约简，有如下定理：

定理6：多余属性

条件：U是论域，P、Q是U上一个条件属性集合，d 为决策属性，且论域 U 是在 P上相对于 {d}一致的 $含义：POS_p(\{d\})=U)$ ，则属性r是P相对于决策属性d不必要的（多余的），其充分必要条件为：
$H(\{d\}|P)=H(\{d\}|P-\{r\})$

论域 U 是在 P上相对于 {d}一致的 $\iff POS_p(\{d\})=U$
证明：下次撰写。

定理7：独立

条件：U是论域，P、Q是U上一个条件属性集合，d 为决策属性，且论域 U 是在 P上相对于 {d}一致的，则属性集合P是相对于决策属性d独立的（独立的：P中任意属性都是d不可省略的），其充分必要条件为：
$H(\{d\}|P) != H(\{d\}|P-\{r\})$

就是说对于决策属性d，P中任意一个属性r都不能少

论域 U 是在 P上相对于 {d}一致的 $\iff POS_p(\{d\})=U$
属性集合P是相对于决策属性d独立的 $\iff$ P中任意属性都是决策属性d不可省略的
! = ：不等于

定理8：约简

条件：U是论域，P、Q是U上一个条件属性集合，d 为决策属性，且论域 U 是在 P上相对于 {d}一致的，则 $\subseteq P$ 是P相对于决策属性d的一个约简的充分必要条件为：

$H(\{d\}|Q) = H(\{d\}|P)$ 且 Q是相对于决策属性d独立的

论域 U 是在 P上相对于 {d}一致的 $\iff POS_p(\{d\})=U$
属性集合Q是相对于决策属性d独立的 $\iff$ Q中任意属性都是决策属性d不可省略的

定理7、8的证明，根据定理6和相对独立与相对约简的定义可以得到。

属性重要性

属性重要性 的知识约简中的一个重要概念，但是 属性重要性 在代数上和信息论上的定义是不一致的。
SGF(a,A,F)的值越大，说明在已知条件下，属性对决策D越重要。
信息论定义包含代数定义

定义4：（属性重要性信息论观点）

：考虑的是该属性对论域中不确定分类子集的影响。

设 $T = (U, R, V, f)$ 是一个决策表系统，其中 $R=C\cup D$ ，C是条件属性集合，D={d}是决策属性集合，且 $A\in C$ ，则对任意属性 $\in C-A$ 的重要性SGF(a,A,D)定义为：
$H(D|A\cup \{a\})$

定义5：（属性重要性代数观点）

：考虑的是该属性对论域中确定分类子集的影响。

F是属性集D导出的分类，C是条件属性集合，D={d}是决策属性集合，且 $A\subset C$ ，则对任意属性 $\in C-A$ 的重要性SGF(a,A,D)定义为：
$SGF(a,A,D)=r_{A\cup a}(F) - r_A(F)$

公式解释：

P，Q：知识（属性集合）。

Card(U )：U中对象数目
$POS_P(Q)$ ：Q的P正域 $\iff\cup P\_(X)$ ；

解释：论域U中那些使用U/P所表达的知识，可以正确地划入到U/Q的等价类的对象集合中（个人理解： $U / P / Q$ ）

Link：依赖度详细解释链接

定理9：

如果 $H(D|A\cup \{a\}) = H(D|A)$ 则 $POS_{A\cup \{a\}}(F) =POS_A(F)$ .

定理9引理：

论域为U，某个等价关系在U上形成的划分为 $A_1={X_1,X_2,...,X_n}$ ，而 $A_2=\{X_1,X_2,...,X_{i-1},X_{i+1},...,X_{j-1},X_{j+1},...,X_n,X_i \cup X_j \}$ 是将划 $A_1$ 中某两个等价块 $X_i$ 、 $X_j$ 合并为 $X_i\cup X_j$ 得到的新划分。 $B={Y_1,Y_2,...,Y_m}$ 也是U上的一个划分，且记：
$H(B|A_1)=-\sum_{i=1}^np(X_i)\sum_{j=1}^mp(Y_j|X_i)log(p(Y_j|X_i))$
$H(B|A_2)=H(B|A_1)-p(X_i \cup X_j)\sum_{k=1}^mp(Y_k|X_i \cup X_j)log(p(Y_k|X_i \cup X_j))+ p(X_i)\sum_{k=1}^mp(Y_k|X_i)log(p(Y_k|X_i))+ p(X_j)\sum_{k=1}^mp(Y_k|X_j)log(p(Y_k|X_j))$
则： $H(B|A_2) \ge H(B|A_1)$