博客摘录「数据挖掘常用技术粗糙集」2023年3月31日

qq_48169098

已于 2024-05-03 10:56:26 修改

阅读量36

点赞数

分类专栏：学习笔记摘录文章标签：笔记数据挖掘

于 2023-04-28 10:37:09 首次发布

本文链接：https://blog.csdn.net/qq_48169098/article/details/129887700

版权

学习笔记摘录专栏收录该内容

1 篇文章 0 订阅

订阅专栏

概念格

给定上下文(contex)t为三元组卜(o,D,)R,其中O是对象集合,D是性质集合,R是O和D之间的二元关系,则存在唯一的偏序集合与之对应,并且这个偏序集合产生一种格结构,这种由上下文所诱导出的格称为概念格。xxR,表示O中的一个元素x与D中一个元素x’之间有关系R。格中每个结点是一个序偶(即概念),记为(A,)B,其中AoP(O),BoP(D),P(O)是O的幂集,P(D)是D的幂集,称A为概念的外延(extension),称B为概念的内涵(intensi。)n。概念格是一种完备的概念层次结构,在信息检索、数字图书馆、软件工程、知识分类、类的设计、网络管理和KDD等领域,概念格已经显示出一定的应用价值。

所谓幂集（Power Set），就是原集合中所有的子集（包括全集和空集）构成的集族

粗糙集

粗糙集理论的主要思想是利用已知的知识库, 将不精确或不确定的知识用已知的知识库中的知识来(近似) 刻画.该理论与其他处理不确定和不精确问题理论的最显著的区别是它无需提供问题所需处理的数据集合之外的任何先验信息, 所以对问题的不确定性的描述或处理可以说是比较客观的, 由于这个理论未能包含处理不精确或不确定原始数据的机制, 所以这个理论与概率论, 模糊数学和证据理论等其他处理不确定或不精确问题的理论有很强的互补性.

在粗糙集理论中,"知识"被认为是一种分类能力. 人们的行为是基于分辨现实的或抽象的对象的能力

目前, 粗糙集已成为人工智能领域中一个较新的学术热点, 在机器学习,知识获取,决策分析,过程控制等许多领域得到了广泛的应用.

粗糙集能有效地处理下列问题:
　　·不确定或不精确知识的表达;
　　·经验学习并从经验中获取知识;
　　·不一致信息的分析;
　　·根据不确定,不完整的知识进行推理;
　　·在保留信息的前提下进行数据化简;
　　·近似模式分类;
　　·识别并评估数据之间的依赖关系

分类过程中, 相差不大的个体被归于同一类, 它们的关系就是不可分辨关系( indiscernability relation).

基本集(elementary set) 定义为由论域中相互间不可分辨的对象组成的集合, 是组成论域知识的颗粒. 不可分辨关系这一概念在粗糙集理论中十分重要, 它深刻地揭示出知识的颗粒状结构 , 是定义其它概念的基础. 知识可认为是一族等效关系, 它将论域分割成一系列的等效类.

BND (X ) 为集合X 的上逼近与下逼近之差. 如果BND (X ) 是空集, 则称X 关于I 是清晰的(crisp ) ; 反之如果BND (X ) 不是空集, 则称集合X 为关于I 的粗糙集( rough set).下逼近,上逼近及边界区等概念称为可分辨区(discern ib ility region s) , 刻划了一个边界含糊(vague) 集合的逼近特性.

软计算(sof t compu t ing) 的概念是由模糊集创始人Zadeh[ 9 ]提出的. 软计算中的主要工具包括粗糙集,模糊逻辑(FL ),神经网络(NN ),概率推理(PR ),信度网络(Belief N etwo rk s),遗传算法(GA ) 与其它进化优化算法,混沌(Chao s) 理论等.传统的计算方法即所谓的硬计算(hard compu t ing) , 使用精确,固定和不变的算法来表达和解决问题. 而软计算的指导原则是利用所允许的不精确性,不确定性和部分真实性以得到易于处理,鲁棒性强和成本较低的解决方案, 以便更好地与现实系统相协调.

粗糙集的理论研究：

目前对粗糙集理论的研究主要集中在：
（1）粗糙集模型的推广
目前主要有两种方法：构造性方法，代数性（公理化）方法。

构造性方法:主要思路是从给定的近似空间出发去研究粗糙集和近似算子。这种方法研究的问题往往来源于实际，所建立的模型有很强的应用价值，其主要的缺点是不容易深刻了解近似算子的代数结构。
代数方法也称为算子方法，它的明显优点是能深刻地了解近似算子的代数结构，其缺点是应用性不够强。

（2）不确定性问题的理论研究
    粗糙集理论中的不确定性主要由两个原因产生的，一是直接来自于论域上的二元关系及其产生的知识模块，即近似空间本身。另一个原因是来自于给定论域里粗糙近似的边界，当边界为空集时知识是完全确定的，边界越大，知识就越粗糙或越模糊。
（3）与其他处理不确定性方法的理论的研究
    知识库的知识的类型一般有两类：一类库中所有对象的描述是完全已知的；另一类库中对象的描述只有部分是已知的，即知识库中的知识是不确定的。
模糊集和粗糙集理论在处理不确定性和不精确性问题方面都推广了经典集合论，但模糊集是通过关于集合的lei属程度来近似描述，而粗糙集是通过一个关于某个可利用的知识库的一对上下近似来描述；
    从集合对象间的关系来看，模糊集强调的是集合边界的病态定义上的，而粗糙集则强调的是对象间的不可分辨性；从研究对象来看，模糊集研究的是属于同一类的不同对象间的lei属关系，而粗糙集研究的是不同类中的对象组成的集合关系，重在分类。
模糊集的lei属函数大多由专家根据经验给出的，因此有很强的主观意志，而粗糙集的粗糙lei属函数的计算直接从被分析的数据直接获取的，非常客观。
（4）算法研究
    粗糙集理论中的有效算法主要集中在导出规则的增量式算法，约简的启发式算法，粗糙集基本并行算法和与粗糙集有关的神经网络与遗传算法等。
（5）与其他数学理论的联系
    从算子的观点看，粗糙集与之相联系比较紧密的有topo空间，数理逻辑，模态逻辑，格与布尔代数，算子代数等
    从构造性和集合的观点来看，它与概率论，模糊数学，证据理论，图论，信息论等比较密切。

不确定性是客观世界的固有特征：
(1)随机性：随机现象的不确定性
(2)模糊性：模糊概念的不确定性
(3)粗糙性：信息系统中知识和概念的不确定性

为什么使用粗糙集？
(1)知识的粗糙性，是因为人类或系统智能体的分类能力不足而引起的。
(2)我们不可能等比例无差别地再现现实世界的对象，而只能是某种程度的近似。这就构成料我们表达现实世界的知识或概念的粒度特征，即粗糙性。
(3)符合人们处理不分明问题的常规性，以不完全信息或知识去处理不分明的现象。

模糊集与粗糙集比较：
（1）模糊集理论采用隶属度函数来处理模糊性，而基本的隶属度是凭经验或领域专家给出，因此有相当的主观性。
（2）粗糙集将那些无法确认的个体都归属于边界线区域，而这种边界线区域被定义为上近似集合下近似集之差集。粗糙集有确定的数学公式描述，完全由数据决定，所以更具有客观性。

各种数学理论的相互关系
（1）粗糙集理论和模糊集理论不是竞争，而是对模糊集的补充。
（2）粗糙集合与Dempster-shafer理论的关系，Dempster-shafer理论利用信度函数作为主要工具，而粗糙集则利用下近似集，上近似集作为处理工具。

粗糙集理论的特点：
（1）粗糙集理论假定知识是一种对对象进行分类的能力
（2）粗糙集理论的主要优势之一是不需要任何预备的或额外的有关数据信息。
（3）可以应用于数据约简，特征提取，特征抽取，决策规则，模式识别等。

粗糙集基本概念：
（1）信息系统/决策系统：Information/Decision System
（2）不可区分关系：Indiscernibility
（3）集合近似：Set Approximation
（4）约简与核：Reducts and Core
（5）粗糙隶属度：Rough Membership
（6）属性依赖性：Dependency of Attributes

正域、负域和边界域

正域是各个等价类的下近似的并集，表示划分完全正确的对象。
负域是各个等价类的上近似的并集的补，表示划分完全错误的对象。
边界域是上近似与下近似的差，表示划分不完全正确的对象。

粗糙集理论的应用

4. 1 人工神经网络训练样本集化简

应用粗糙集化简神经网络训练样本数据集, 在保留重要信息的前提下消除了多余(superf luou s) 的数据. 仿真实验表明训练速度提高了4. 77 倍, 获得了较好的效果.

4. 2 控制算法获取

实际系统中有很多复杂对象难于建立严格的数学模型, 传统的基于数学模型的控制方法难以奏效. 模糊控制模拟人的模糊推理和决策过程, 将操作人员的控制经验总结为一系列语言控制规则, 具有鲁棒性和简单性的特点, 在工业控制等领域发展较快. 但是有些复杂对象的控制规则难以人工提取, 这样就在一定程度上限制了模糊控制的应用.

粗糙集能够自动抽取控制规则的特点为解决这一难题提供了新的手段. 应用粗糙集进行控制的基本思路是: 把控制过程的一些有代表性的状态以及操作人员在这些状态下所采取的控制策略都记录下来, 然后利用粗糙集理论处理这些数据, 分析操作人员在何种条件下采取何种控制策略, 总结出一系列控制规则。这种根据观测数据获得控制策略的方法通常被称为从范例中学习( learn ing f rom exam2p les). 粗糙控制( rough con t ro l) 与模糊控制都是基于知识,基于规则的控制, 但粗糙控制更加简单迅速,实现容易(因为粗糙控制有时可省却模糊化及去模糊化步骤) ; 另一个优点在于控制算法可以完全来自数据本身, 所以从软件工程的角度看, 其决策和推理过程与模糊(或神经网络) 控制相比可以很容易被检验和证实(validate).

4. 3 决策支持系统
　　面对大量的信息以及各种不确定因素, 要作出科学,合理的决策是非常困难的. 决策支持系统是一组协助制定决策的工具, 其重要特征就是能够执行IF THEN 规则进行判断分析. 粗糙集理论可以在分析以往大量经验数据的基础上找到这些规则, 基于粗糙集的决策支持系统在这方面弥补了常规决策方法的不足, 允许决策对象中存在一些不太明确,不太完整的属性, 并经过推理得出基本上肯定的结论.

4. 4 从数据库中知识发现

由于数据库的庞大, 人工处理这些数据几乎是不可能的, 于是出现了一个新的研究方向—
数据库中的知识发现(Knowledge Discovery in Databases, KDD) , 也叫做数据库(信息) 发掘
(Mining) , 它是目前国际上人工智能领域中研究较为活跃的分支. 粗糙集是其中的一种重要的研究方法, 它采用的信息表与关系数据库中的关系数据模型很相似, 这样就便于将基于粗糙集的算法嵌入数据库管理系统中.粗糙集引入核(co re),化简( reduct) 等有力的概念与方法, 从数据中导出用IF THEN规则形式描述的知识, 这些精练的知识更便于存储和使用.

粗糙集与模糊集,证据理论
　　粗糙集与模糊集都能处理不完备( imperfect) 数据, 但方法不同, 模糊集注重描述信息的含糊(vagueness) 程度, 粗糙集则强调数据的不可辨别( indiscern ib ility) , 不精确( imp recision) 和模棱两可(am b igu ity). 使用图像处理中的语言来作比喻, 当论述图像的清晰程度时, 粗糙集强调组成图像象素的大小, 而模糊集则强调象素存在不同的灰度. 粗糙集研究的是不同类中的对象组成的集合之间的关系, 重在分类; 模糊集研究的是属于同一类的不同对象的隶属的关系,重在隶属的程度. 因此粗糙集和模糊集是两种不同的理论, 但又不是相互对立的, 它们在处理不完善数据方面可以互为补充.
粗糙集理论与证据理论虽有一些相互交叠的地方, 但本质不同, 粗糙集使用集合的上,下逼近而证据理论使用信任函数(belief funct ion) 作为主要工具. 粗糙集对给定数据的计算是客观的, 无须知道关于数据的任何先验知识(如概率分布等) , 而证据理论则需要假定的似然值

属性约简算法大多没有考虑属性之间的相互作用，即在进行属性约简的搜索过程中，选择重要度高的属性作为候选属性，而没有考虑所选属性的独立性，新选择的属性与已有的属性可能存在一定的依赖关系，这使得最终的属性约简结果可能存在一定的冗余性。