【离散数学】关于粗糙集的讨论

WiIsonEdwards

已于 2023-04-07 23:05:43 修改

阅读量978

点赞数 1

文章标签：大数据

于 2023-02-06 15:30:42 首次发布

本文链接：https://blog.csdn.net/m0_53700832/article/details/128902619

版权

文章探讨了粗糙集理论在大数据背景下的属性约简算法，包括经典算法及其优化，如基于属性重要度的约简、并行计算、增量学习和粒计算方法。这些算法旨在处理数据的不完整性、不确定性和高维动态性，以提高数据分析效率和知识发现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要：属性约简是粗糙集中的一个重要研究方向。本文对基于粗糙集的属性约简算法进行归纳，这对进一步深入研究粗糙集的属性约简算法具有积极意义。在大数据时代，数据不仅类型多样、结构复杂还具有动态变化的特点，传统的分析工具已经不能满足大数据分析的需求。一些学者将粗糙集属性约简理论与其他理论相结合，从而可以有效地处理高维动态的海量数据。

关键词：大数据；粗糙集；属性约简；不完备决策；不相容决策；增量决策并行计算；增量学习；粒计算

1 基于粗糙集的属性约简算法

粗糙集这一概念是比较新颖的，该概念是于1982年由波兰数学家Z.Pawlak提出。粗糙集理论是一种刻画数据不完整性与不确定性的数学工具。什么是不完整性与不确定性呢，在我看来，数据的获取都是来源于外部，在数据获取过程中，难免会遇到部分数据传输失败或者错误，这就导致整个数据库不完整，并且如果数据库中的数据的精细程度发生改变也会导致数据的不确定性。所以，我们把这些在数据库中不完整不确定的数据归入粗糙集。在平常，对于这些不完整、不确定的数据，我们都会不考虑它们，甚至摒弃它们，因为它们本身就是“错误”数据。而粗糙集理论则充分利用这些“错误”数据，研究其中隐含的知识以及潜在的规律。由于不完整性、不确定性，粗糙集中的数据之间在某一或某些属性上存在不可分辨关系，就好比存在两种颜色黑与白组成的集合，并且只存在这两种集合，黑色集合中两个物体因为它们颜色相同并不能分辨彼此，但如果两个物体形状不同，就可以把他们区别开来。

对于普通集合，由于集合与集合之间的差异十分明显，并且集合内部的数据元素属性都一致且十分明确，所以研究普通集合中的数据是并不困难。对于粗糙集，虽然数据具有不可分辨关系，但这只是指某一个或某些方面不可分辨，通过某些手段，我们可以在粗糙集中找出数据之间的差异。粗糙集理论可以根据数据之间的等价关系定义分类，然后根据属性约简等方法来获取分类。属性约简方法是粗糙集理论深入研究的内容之一，属性约简方法简单来说就是，数据知识库中的属性并不是同等重要的，在数据知识库分类能力不变的情况下，删除数据中不相关或不重要的分类，但这并不影响原来的知识系统分类，使原有的系统得到简化，属性约简方法更有利于对粗糙集中的数据进行分析与处理。

基于经典粗糙集的属性约简算法，仅需要根据粗糙集中数据本身带有的信息就能找出问题的规律并进行属性约简。比如说感冒数据库，该数据集中有性别，年龄，是否头疼，是否发热，是否咽痛等分类。性别与年龄这两个分类对于判断是否患感冒并没有太大的影响，所以，在属性简约过程可以将这两个分类剔除，使得数据库更有效地判断是否患有感冒。经典的属性简约算法是严格基于等价关系，这样容错性就差，不能处理不完备不相容决策信息表。并且对于数据存在动态的属性，经典属性约简算法可能将原本对于决策结果影响大的属性给剔除，这就造成许多麻烦。为了处理经典属性约简算法带来的弊端，众多学者对该算法进行了优化，提出了不同的约简算法，比如不完备信息决策信息表属性约简算法、不相容信息决策信息表属性约简算法、连续型属性决策信息表约简算法、基于属性重要度的属性约简算法等等。对于以上几个优化算法，我想就基于属性重要度的属性约简算法展开探讨一下。

该优化算法首先定义一个信息系统IS=（U,C,V,f）其中U代表信息系统所有数据组成的集合，C表示所有属性组成的集合，V表示某一属性下所有数据组成的集合，f表示某一对象在某一属性下的数据。接下来计算属性的核，计算U上的不可分辨关系IND(C)，然后依次删除C中的某一个属性，然后计算U上的不可分辨关系IND(C-{Ai}),如果IND(C)等于IND(C-{Ai}),说明Ai属性并不是核；否则，就将Ai保留在核集合中。将不在核集合中的属性删除，得到的U’就是属性约简后的系统。

2 大数据背景下的粗糙集属性约简算法的研究

从其定义目的出发，粗造集可看作一种处理不确定关系的数学工具，而其相应的约减算法就是将集合中的不确定消弭的一种策略。而现如今宏观的分类有两种，一是基于不同决策信息表的属性约减算法，二是基于不同方法的属性约减算法。首先不同决策信息表的属性约减算法是针对已有粗糙数据集的特性进行合理的补充和数据处理来达成易处理的数据寄结构，如不完备决策信息表进行合理扩充，不相容决策信息表通过代数观和信息观区分数据，连续型决策信息表进行离散化，动态决策信息表基于增量学习动态分析数据集，有序决策信息表通过关系的代入构造进行数据集的分析。其次是基于不同方法的属性约减算法，将多种理论引入对数据集的分析当中，以达到将未经处理的数据分析得到合理的结果。

而这种基本的约减方法都是处理生活中狭义的大数据，而针对新时代的大数据，科学家们基于这些基本而经典的角度进行针对大数据提取集合这一必然粗糙集合的分析。浅显却又直观的看待大数据粗糙集的合理处理不可或缺的是一步降维，即将广且繁杂的数据进行深度处理，进行属性约减至理想目标，如利用分治思想的并行计算，还有经典的利用增量学习的方法，使用新增数据的结果进行代入和不断更新迭代已达到使用目的，同时又有将数据集拆分为不同子空间粒，通过分而又合，将子空间的解合并得到原始空间的解。整体地来看，基于粗糙集的属性约减方法在多领域都有所应用，而对于最小特征属性的追寻，是对于粗糙集永远不变的追索目标。

当前的研究成果为：粗糙集及属性约简、并行计算、增量学习、粒计算。以上都是之前的人们所研究出来的理论基础。在这篇文章中主要是介绍了如何运用这些理论基础来进行大数据背景下粗糙集属性约简。

首先是属性约简算法。基于粗糙集的属性约简算法大致可以分为两类：一是基于属性重要度的启发式约简算法，二是基于区分样本的结构化算法。第一类算法主要包括基于正域的约简算法、基于信息熵的约简算法等，此类算法可以有效降低算法的时间复杂度，在多数情况下可以得到一个属性约简，但该约简未必是最小属性约简；第二类算法主要是指基于辨识矩阵的约简算法，这类算法有着完备的数学理论支撑，能够求解所有约简，但在计算过程中会出现“组合爆炸”现象，导致算法的效率大大降低。

基于并行计算的属性约简算法。并行计算（parallel computing的基本思想是运用分治策略将整体问题分解成若干相互独立的部分，各部分均由不同的处理单元并行计算，然后将所有的中间结果进行综合就可以得到最终结果。将问题分小部分进行处理，可以加快运行速率。

基于增量学习的属性约简算法。增量学习（incremental learning）的主要思想是在先前训练结果的基础之上，利用新增数据的学习结果对已有知识进行不断的更新和修正，以达到持续学习的目的。为了克服批量学习消耗大量时间和空间的弊端，学者们将增量学习技术引入到粗糙集属性约简理论中，对正域、信息熵、辨识矩阵、依赖函数等进行增量式计算，充分利用之前的约简结果来降低算法的复杂度。

基于粒计算的属性约简算法。粒计算理论（Granular Computing Theory）的核心思想是通过特定粒化准则将问题空间划分成多个子空间，然后合并各个子空间上的解求得原始问题的解。利用粒计算理论可以从多个角度、多个层次分析和解决问题，适用于处理大规模数据。单粒度视角下的属性约简算法，在单粒度视角下，通过粒度优化改进经典粗糙集属性约简算法可以提高约简效率，适合处理规模较大的数据集，但仅从粒度优化角度设计属性约简算法只能在一定程度上提高数据的属性约简效率，却不适用于处理结构混杂、动态变化的大数据。多粒度视角下的属性约简算法，基于多粒度思想的复杂问题求解思路是通过粒层之间的关系将不同粒度空间下求得的中间结果进行融合，从而求得复杂问题的最终解。

有待进一步研究的问题。就目前所取得的研究成果而言，约简算法的优化和改进多数是针对Pawlak粗糙集模型的，将这些优化方法应用到三支决策粗糙集、多粒度粗糙集、局部粗糙集、多核模糊粗糙集等模型进行属性约简算法的设计是一种研究思路。融合多种方法设计的属性约简算法还比较少，所以综合利用多种方法的优势设计约简算法并在不同云平台下实现是一个有意义的研究方向。第一，通过对粒度空间合理粒化得到合适的粒度，能够使属性约简算法在大数据处理方面的效率得到提高。第二，从不同层次、不同角度对复杂数据进行分析能够挖掘出更多有价值的信息。粒计算的应用前景广阔，将其应用到数据挖掘、机器学习、智能决策等具体领域，可以为复杂问题的求解提供新的思路和方法，在促进相关领域发展的同时也使得多粒度粗糙集约简理论得以发展。