简介:
粗糙集是波兰理工大学Z.pawlak教授提出用来研究不完整数据,不精确知识的表达、学习,归纳等的一套理论,从数学的角度看,粗糙集是研究集合的;从编程的角度看,粗糙集的研究对象是矩阵,只不过是一些特殊的矩阵;从人工智能的角度来看,粗糙集研究的是决策表。
概念:
- 论域U:实际就是数学里面的集合。
- 知识:对对象分类的能力,这里的对象指任何实体,一般叫论域。为U的任何子集族。
- 属性R=知识R=等价关系R=分类:而属性是Table表里面的列,知识是人工智能里面的术语,等价关系是数学上的词汇,而分类则是数据挖掘里的概念。而实际上以上4者是同一个东西。
- 知识库:U上的分类族叫知识库。
- 知识等价:ind(P)=ind(Q),表示P与Q等价。
粗糙集是建立在分类机制的基础上,他将分类理解成为在特定空间上的等价关系,而等价关系构成料对该空间的划分。
粗糙集理论的主要思想是利用已知的知识库,将不精确或不确定的知识用已知的知识库中的知识来(近似)刻画。
该理论与其他处理不确定和不精确问题理论的最显著的区别是它无需提供问题所需处理的数据集合之外的任何先验信息,所以对问题的不确定性的描述或处理可以说比较客观。
基本概念:
设U是非空有限论域,R是U上的二元等价关系,R称为不可分辨关系,序对A=(U,R)称为近似空间。
对于论域U上任意一个子集X,X不一定能用知识库中的知识来精确表达表达,即X可能为不可定义集,这时就用X关于A的一对下近似apr和上近似apr来“近似”描述:
下近似apr是A中含在X中的最大可定义集,而上近似apr是A中包含X的最小可定义集。
所以当 下近似apr=上近似apr时,X是可定义的,否则X是不可定义的,这时称X是粗糙集。
A的近似质量定义,它反映了知识X中肯定在知识库中的部分在现有知识中的百分比。
X关于A的粗糙性测度定义如下,它反映了知识的不完整程度。
X关于A的近似精度,反映了根据现有知识对X的了解程度。
粗糙集理论中的知识表达:
粗糙集理论的知识表达方式一般采用信息表或称为信息系统的形式,它可以表现为四元有序组K=(U,A,V,P)。其中U为对象的全体,即论域;A是属性全体;V是属性的值域;P为一个信息函数,反映了对象x在K中的完全信息。
信息系统类似于关系数据库模型的表达方式。无决策的数据分析和有决策的数据分析是粗糙集理论在数据分析的两个主要应用。粗糙集理论给出了知识约简和求核方法提供从信息系统中分析多余属性的能力。
若集合B属于A,且无多余属性,则B为A或AT的约简,记为red(AT),AT中所有约简的交集称为AT的核,记为core(AT),一般属性的约简不唯一,但核则是唯一的。
无决策情形的知识表达:
| c1 | c2 | c3 | c4 |
| 1 | 1 | 1 | 1 |
| 1 | 2 | 2 | 1 |
| 1 | 1 | 1 | 1 |
| 1 | 2 | 2 | 1 |
| 2 | 2 | 1 | 1 |
| 2 | 2 | 1 | 1 |
| 3 | 3 | 3 | 2 |
| 3 | 3 | 3 | 2 |
从上图可以知道:
U/c1={{x1,x2,x3,x4},{x5,x6},{x7,x8}}
U/c2={{x1,x3},{x2,x4,x5,x6},{x7,x8}}
U/c3={{x1,x2,x5,x6},{x2,x4},{x7,x8}}
U/c4={{x1,x2,x3,x4,x5,x6},{x7,x8}}
U/c={{x1,x3},{x2,x4},{x5,x6},{x7,x8}}
| c1 | | | |
| | 1 | 1 | 1 |
| | 2 | 2 | 1 |
| | 2 | 1 | 1 |
| | 3 | 3 | 2 |
(1)在决策表中将信息相同的对象及其信息删除只留其中一个得到压缩后的信息表,即删除多余事例;
(2)删除多余属性
(3)对每一对象及其信息中将多余的属性值删除
(4)求出最小约简
(5)根据最小约简,求出逻辑规则。
粗糙集的理论研究:
目前对粗糙集理论的研究主要集中在:
(1)粗糙集模型的推广
- 构造性方法:主要思路是从给定的近似空间出发去研究粗糙集和近似算子。这种方法研究的问题往往来源于实际,所建立的模型有很强的应用价值,其主要的缺点是不容易深刻了解近似算子的代数结构。
- 代数方法也称为算子方法,它的明显优点是能深刻地了解近似算子的代数结构,其缺点是应用性不够强。
(2)不确定性问题的理论研究
(3)与其他处理不确定性方法的理论的研究
模糊集和粗糙集理论在处理不确定性和不精确性问题方面都推广了经典集合论,但模糊集是通过关于集合的lei属程度来近似描述,而粗糙集是通过一个关于某个可利用的知识库的一对上下近似来描述;
模糊集的lei属函数大多由专家根据经验给出的,因此有很强的主观意志,而粗糙集的粗糙lei属函数的计算直接从被分析的数据直接获取的,非常客观。
(4)算法研究
(5)与其他数学理论的联系
不确定性是客观世界的固有特征:
(1)随机性:随机现象的不确定性
(2)模糊性:模糊概念的不确定性
(3)粗糙性:信息系统中知识和概念的不确定性
为什么使用粗糙集?
(1)知识的粗糙性,是因为人类或系统智能体的分类能力不足而引起的。
(2)我们不可能等比例无差别地再现现实世界的对象,而只能是某种程度的近似。这就构成料我们表达现实世界的知识或概念的粒度特征,即粗糙性。
(3)符合人们处理不分明问题的常规性,以不完全信息或知识去处理不分明的现象。
模糊集与粗糙集比较:
(1)模糊集理论采用隶属度函数来处理模糊性,而基本的隶属度是凭经验或领域专家给出,因此有相当的主观性。
(2)粗糙集将那些无法确认的个体都归属于边界线区域,而这种边界线区域被定义为上近似集合下近似集之差集。粗糙集有确定的数学公式描述,完全由数据决定,所以更具有客观性。
各种数学理论的相互关系
(1)粗糙集理论和模糊集理论不是竞争,而是对模糊集的补充。
(2)粗糙集合与Dempster-shafer理论的关系,Dempster-shafer理论利用信度函数作为主要工具,而粗糙集则利用下近似集,上近似集作为处理工具。
代表性著作:
(1)Pawlak,Z.,1982.Rough sets.International Journal of Computer and Information Sciences,11:341-356
(2)Pawlak,Z,.1991.Rough Sets-Theoretical aspect of Reasoning about Data.Kluwer Academic Publishers.
粗糙集理论的特点:
(1)粗糙集理论假定知识是一种对对象进行分类的能力
(2)粗糙集理论的主要优势之一是不需要任何预备的或额外的有关数据信息。
(3)可以应用于数据约简,特征提取,特征抽取,决策规则,模式识别等。
粗糙集基本概念:
(1)信息系统/决策系统:Information/Decision System
(2)不可区分关系:Indiscernibility
(3)集合近似:Set Approximation
(4)约简与核:Reducts and Core
(5)粗糙隶属度:Rough Membership
(6)属性依赖性:Dependency of Attributes
信息系统(Information System)
(1)形式上,四元组S=(U,A,V,F)是一个信息系统。其中
U:为论域,即对象的非空有限集合
A:属性的非空有限集合
V:属性A的值域
F:是一个信息函数
以下为一实例:
| Age | LEMS |
| 16-30 | |
| | |
| | |
| | |
| | |
| | |
| | |
决策表(Decision Table):
(1)决策表是一类特殊而重要的信息系统
(2)设S=(U,A,V,F)为一信息系统,A=C并D,C交D=空,则C称为条件属性集,D为决策属性集。
(3)具有条件属性集和决策属性集的信息系统S称为决策表。
如下是实例:
| | LEMS | Walk |
| | 50 | |
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
参考书:
- <<粗集理论及其应用>>
曾黄麟 编著 重庆大学出版社 - <<粗糙集理论与方法>>
张文修等 编著 科学出版社