粗糙集理论---研究现状

 当前,除了以粗糙集理论为主题的会议或研讨班相继召开外,许多国际重要学术会议和学术研讨班也都把粗糙集理论的研究列入会议和讨论班的主要内容之一,这些都极大地促进了该理论的发展及其在各个领域中的应用. 对粗糙集理论的研究主要集中在以下方面: 
(1) 粗糙集的数学理论方面的研究 
    主要有粗糙集代数、粗糙集拓扑及其性质、粗糙逻辑等方面的研究. 在数学理论方面的研究是粗糙集理论形成和发展的基础. 

    在粗糙集理论研究中构造性方法和公理化方法已成为两种最基本的方法. 其中构造性方法是从一个二元关系出发定义一对上下近似算子,由不同的二元关系决定不同的近似算子,从而可以构造不同类型的粗糙集代数,如序列粗糙集代数、反射粗糙集代数、对称粗糙集代数、传递粗糙集代数、反射对称粗糙集代数、反射传递粗糙集代数、对称传递粗糙集代数、Pawlak 粗糙集代数等. Yao 系统研究了上述各种特殊类型的粗糙集代数及其相应近似算子所具备的特性.  基于普通的邻域关系,Yao 引人了邻域系统的概念,并系统地研究了邻域系统与粗糙近似之间的关系,证明了在邻域系统表示的近似算子意义下 Pawlak 近似算子和模态逻辑的可能性和必然性算子是一致的,这些工作为建立近似模型提供了强有力的工具. 而公理化方法是通过定义满足不同的特定的公理系统的一对对偶近似算子来刻画不同类型的粗糙集代数的,这种方法又称粗糙集代数方法. Liu等给出了一个粗糙集公理组,并证明了公理组的可靠性. 祝峰等简化了该公理组,也证明了简化公理组的可靠性. 在此基础上,孙辉等进一步研究了粗糙集公理组的极小化问题,得到了两个简化的粗糙集公理组,且讨论了它们的可靠性和极小性. 上述这些工作丰富了粗糙集理论的内涵,同时也从不同角度体现了构造性方法和公理化方法各自的优势和局限性. 

    Z.Pawlak定义了粗糙逻辑和决策逻辑 ,把粗糙逻辑定义为5 个真值:真、假、粗糙真、粗糙假和粗糙不一致. 决策逻辑是建立在决策表上的逻辑. A.Skowron 研究了粗糙概念逻辑和近似逻辑,强调这种逻辑的完备性 . M.K.Charabory 提出了带粗糙量词的粗糙逻辑,并建立了一套近似推理的逻辑工具 . A.Nakamura定义了一种粗糙层次模态性,把 5 种模态逻辑分别对应于 5 种模糊和粗糙性,并把粗糙逻辑、模糊逻辑和模态逻辑融为一体 .  这些研究为经典逻辑在近似推理中的应用开辟了新的途径.  
(2) 数据预处理机制的研究 
    在绝大多数情况下,同一个信息系统中既包含连续属性,又包含离散属性. 粗糙集理论只能处理离散型数据,而不能直接处理连续属性,在实际应用中必须先对连续属性值进行离散化处理,这一局限大大限制了粗糙集理论的应用范围. 因此,将粗糙集理论拓展以能够处理连续属性,这既是粗糙集理论发展的要求,也是实际应用的需要. 目前,对于连续属性的处理主要采用离散化的方法,连续属性的离散化问题在粗糙集理论分析的其他环节之前,故它属于粗糙集理论中的预处理问题之一. 目前粗糙集理论中的离散方法基于两类:一类基本上很少或不考虑粗糙集理论的特殊性,只是把机器学习等其他学科中的离散化问题借用到粗糙集理论上来,离散化效果并不突出;另一类注意到了粗糙集理论对决策表的特殊要求,采取结合方法来解决离散化问题.  连续属性的离散化使得粗糙集理论对离散和连续的属性都能处理,扩大了粗糙集理论的应用范围.  
    数据预处理的另一个重要内容是对不完备信息表的完备化. 在很多情况下,得到的待处理的信息表并不是一个完备的信息表,表中的某些属性值是被遗漏的,且无从知道其原始值,这也是信息系统不确定性的一种主要原因.  对于这种情况,目前主要通过以下途径来对信息表中的遗漏数据进行补齐. 一种途径是简单地将存在空缺(遗漏)属性值的实例记录删除,从而得到一个完备的信息表. 虽然这种方法不是严格意义上的数据补齐,然而在信息表数据巨大的并且有遗漏属性值的实例记录的数量远远小于信息表所包含的记录数时,这种方法在删除不完整记录之后并不太影响信息表中信息的完整性,是一种可取的处理方法. 但是,当信息表中的信息较少、存在遗漏信息的实例相对较多时,这种方法就会严重影响信息表中的信息量,这时就不能采用这种方法了. 第二种途径是将空缺(遗漏)属性值作为一种特殊的属性值来处理,它不同于其他任何属性值,这样就能实现不完备信息表的完备化. 第三种途径是采用统计学原理,根据信息表中其余实例在该属性上的取值的分布情况来对一个遗漏属性值进行估计补充,这样不会影响信息表中包含的信息量. 第四种途径是根据粗糙集理论中数据不可分辨关系来对不完备的数据进行补齐处理.  传统的粗糙集理论和方法已经成功地用于处理不精确、不一致、不确定的数据或知识,但它存在一个假定的前提,即所有可以获得的个体对象由这个属性集合给
出完全的描述.换句话说,用 U={x1, x2, …, xn}表示个体对象集合,A={a1, a2,…, am}表示属性集合,则对于任意 a∈A, x∈U,属性值 a (x)总是存在的,即 a (x)≠φ. 这个假设虽然是合理的,但与很多现实情况有差异. 在这些情况下,由于不可能得到一部分属性值(例如,集合 U 是关于病人的集合,属性是一些临床检验,则并非所有的检验结果在给定时间内都可以得到),或者由于存储介质的故障、传输媒体的故障、一些人为因素等等,导致关于对象集合 U 的描述是不完全的. 这样,就导致了不完全信息系统的出现. 

 (3) 关于约简算法的研究 
    在粗糙集理论的各种应用中,属性约简算法具有重要意义,是知识发现的重要课题,因而对属性约简算法的研究一直是粗糙集理论研究中的核心问题之一.  根据粗糙集中的定义寻找属性的最小约简,会导致组合爆炸问题,已被证明是一个 NP-hard 问题 ,因此需要研究更为有效的约简算法,而运用启发信息来简化计算是最直接的思想. 目前最常采用的是:

1、基于启发方法找出一个最优或次优约简,其中基于“属性重要性”思想的启发式算法得到了广泛的研究.  最初提出该算法的是Hu X.使用核作为计算的初始约简,引入“属性的重要性”这样一个度量作 为启发信息,按照属性的重要程度的大小逐个将属性加入约简集,直到该集合是一
个约简为止. 该算法可以很简单直观地计算一个最好的或用户指定的最小约简.

2、此外,Jakub 提出了基于遗传算法去寻找系统的最小约简 .

3、 Kryszkiewiez和 Rybinski研究了在复合信息系统中寻求约简的问题 ,通过寻求子系统的约简最终求出复合系统的约简. 其主要思想是将布尔函数的化简问题转化成集合空间中的边界搜索问题,从而在己知子系统的约简的情况下,简化复合系统的搜索空间.

4、Starzyk 等提出强等价的概念,进而发展为扩展法则,用于快速简化区分函数 .

5、Bazan等提出动态约简方法,该方法能够有效的提高约简的抗噪声能力. 

 

 

(4) 粗糙集模型的扩展 
    Pawlak提出的经典的粗糙集模型在应用于数据分析时,会遇到噪声、数据缺失、大数据量、连续属性离散化等具体问题,造成了实际效果不是很理想.  因此,Pawlak粗糙集模型的扩展一直是粗糙集理论研究的主流方向,文献[13]总结了目前主要有两种方法:构造性方法和代数(公理化)方法.  迄今为止,人们提出了许多粗糙集模型的扩展模型,其中最典型的有可变精度粗糙集模型和相似模型.  
    ① 可变精度模型 
    在数据集中存在噪音等干扰情况下,经典理论会由于对数据的过拟合而使其对新对象的预测能力大为降低,对不确定性概念的边界区域刻画过于简单,缺乏对噪音数据的适应能力. 而在实际应用中,数据大多是不精确的,噪音是在所难免的. 为增强粗糙集模型的抗干扰能力,Ziarko 于 1993 年提出了可变精度粗糙集模型(Variable Precision Rough Set Model, VPRSM) ,该模型通过引入分类精度,即允许一定程度的错误分类率存在,使模型具有一定的容错性. 这一方面完善了近似空间的概念,另一方面也有利于用粗糙集理论从被认为是不相关的数据中发现相关数据.

    当然,可变精度粗糙集模型的主要任务是解决属性间无函数或不确定关系的数据分类问题. 在这个模型中,通过引入集合 X 关于集合 Y 的相对错误分类率c(X,Y),把集合的普通包含关系 X ?Y 放宽为多数包含关系(Majority Inclusion Relation):Xβ Y??  c(X,Y)≤ β .  在允许的分类误差β 下对概念的上近似和下近似重新定义. 可变精度粗糙集模型继承了经典粗糙集模型的所有基本数学特性,但是其使用范围更广.  这一推广在应用上是非常重要的,因为在实际问题中绝对的包含有时是不必要的.   
    ② 相似模型 
    经典粗糙集模型的基础是不可分辨关系,但是这个条件是很强的. 在数据中存在缺失的属性值的时候(在数据库中很普遍),按照不可分辨关系进行处理,往往约简效果很差. 为扩展粗糙集的能力,文献[28, 32]提出了用相似关系来代替不可分辨关系作为粗糙集约简的依据.  
    (5) 与其他处理不确定性问题的理论或方法之间的关系和互补 
    目前关于粗糙集理论与其他处理不确定性问题的理论或方法之间的关系的研究,主要集中在与模糊数学、D-S 证据理论、概率统计理论和信息论、神经网络等的相互渗透与补充. 这些研究表明粗糙集理论和它们都有交叉的部分,不能够互相取代,反而需要相互补充融合,揭示它们之间内在的联系和本质的区别是非常有意义的研究课题.  
    ① 粗糙集与模糊数学 
    模糊集用隶属度处理描述不确定性信息,粗糙集是用正区域,负区域和边界域处理不精确信息的三值逻辑.  文献[33-37]  探讨了粗糙集与模糊集之间的关系.  文[38]讨论了基于模糊划分的集合近似问题,提出了粗糙模糊集和模糊粗糙集的概念.  
    ② 粗糙集与证据理论 
    文献[39]研究了粗糙集与证据理论的关系,前者使用上下近似而后者使用信任函数和似然函数作为处理不确定性的工具.  文献[40]讨论了粗糙集理论与证据理论中的信任函数之间的内在联系. 粗糙集中的近似质量通过对数据本身的计算导出,而信任(似然)值需要专家给出,因此粗糙集具备客观性,而证据理论带有一定的主观性.  
    ③ 粗糙集与概率统计、信息论 
    粗糙集与统计学都是分析数据的有效工具,粗糙集的优点在于:意义明确,不需要任何统计假设.  文献[41]比较了粗糙集与统计学方法在属性选取上的区别与联系. Duntsch 定义了粗糙集数据分析的统计特性,并依据该统计特性给出了一种数据过滤方法,并结合信息嫡原理定义了两种衡量粗糙集数据分析质量的不确定性测度 .  
    ④ 粗糙集与神经网络理论 
    利用粗糙集理论的属性约简方法可以减少输入神经网络的数据维数. Jelonek等的研究实验表明,利用约简算法对神经网络的输入数据进行预处理后,在分类能力[43]没有明显下降的情况下,缩短了网络的训练时间 .  将粗糙集理论融合于神经专家系统,就产生了新的混合专家系统,称为粗糙-神经专家系统 .  



转自:http://lsunblao.blog.sohu.com/78065633.html

  • 2
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值