概念格初步学习

微莱羽墨

于 2021-07-16 15:48:00 发布

阅读量3.2k

点赞数 15

分类专栏：知识图谱文章标签：概念格

本文链接：https://blog.csdn.net/qq_43654669/article/details/117967800

版权

知识图谱专栏收录该内容

6 篇文章 38 订阅

订阅专栏

一、概念格定义

1.本质上

概念格本质上是描述了对象/样本与属性/特征之间的关系。

2.具体定义

概念格是形式概念分析理论中用于数据分析与处理的核心工具，也是一种挖掘数据关联的有效方法。
概念格，也称为Cralois格，又叫做形式概念分析，由Wille R于1982年首先提出，它提供了一种支持数据分析的有效工具。
概念格的每个节点是一个形式概念，由两部分组成,分别是外延和内涵，外延，即概念所覆盖的实例;内涵，即概念的描述，该概念覆盖实例的共同特征。另外，概念格通过Hasse图生动和简洁地体现了这些概念之间的泛化和特化关系。因此，概念格被认为是进行数据分析的有力工具。从数据集中(概念格中称为形式背景)中生成概念格的过程实质上是一种概念聚类过程;然而，概念格可以用于许多机器学习的任务。目前，已经有了一些建造概念格的算法，并且概念格在信息检索、数字图书馆、软件工程和知识发现等方面得到应用。
注：内涵和外延的区别
在这里插入图片描述
纸质笔记：
纸质版笔记

3.作用

用于数据分析与处理
用于挖掘数据关联的一种方法
初衷是希望通过形式化的方式刻画现实中的实体对象或抽象概念，并建立相应的层次知识结构，描述概念之间的泛化与特化关系。

4.性质

5.优缺点

二、概念格基本定理

1.形式背景（formal context）

形式背景可以表示为三元组T=(O，D，R)，其中O是事例（对象）集合，D是描述符（属性）集合，R是O和D之间的一个二元关系，则存在唯一的一个偏序集与之对应，并且这个偏序集产生一种格结构，这种由背景（O，D，R）所诱导的格L称为概念格。格L中的每个节点是一个序偶(称为概念)，记为(X，Y)，其中称为概念的外延；称为概念的内涵。每一个序偶关于关系R是完备的，即有性质：
在这里插入图片描述

三、概念格的构造算法

概念格的构造过程就是概念聚类的过程。对于具有相同形式背景的数据，可以生成唯一的格结构，不受数据或属性排列次序的影响。
（1）批处理算法。
国内外已提出很多关于概念格的建格算法，这些算法大致可以分成两大类：批处理算法和渐进式算法或称增量算法。批处理算法根据具体构造方式的不同可以分为三类，即自顶向下算法、自低而上算法、枚举算法。自顶向下算法是先构造全概念，也就是最上层的节点，然后依次生成该节点的所有可能的子节点，并且对每个子节点做递归上述操作，最后将所有存在父子关系的节点相连，如 Bordat 算法、OSHAM 算法等。算法的关键在于如何生成子节点，虽然简洁，直观且较易实现，但存在可能会
生成许多冗余节点的问题。
与上述构造顺序正好相反的是自低而上算法，如 Chein 算法，该类算法的关键在于如何进行由 KL 层的多个序对到 KL+1 层的合并，并且要对生成的节点进行重复性判断，如果在上层中出现过，要予以标记，在完成此层操作之前删除该节点。此算法所存在的问题是在合并的过程中会产生大量的重复性节点，算法效率不高，不能生成相应的 Hasse 图，不具备直观性。枚举算法则按照一定的顺序枚举出格内的节点，在生成 Hasse 图的同时，表达出各个节点之间的关系。
（2）渐进式算法
渐进式算法的主要思想是将待插入的对象与格内已存在的概念节点进行交运算，根据结果的不同使用相应的处理办法。对于新插入的实例，对格内的节点会产生三种不同的影响：
①更新节点，该类节点内涵包含在新对象内涵之中，仅仅需要将新对象的外延加入到外延中即可；
②不变节点，这种结点的内涵与新对象的内含无关（没有任何交集），不做任何修改；
③新增节点，新节点对象的内涵与格内节点内涵的交集首次出现，即原格内所没有的新概念，需要添加的节点。
以 Godin 算法为例，在新对象插入时，不用遍历所有的节点，仅仅检查是否至少有和新对象有一个共同属性的节点。该操作通过维护一个可包含每个属性首次在格内出现的指针来实现，指针能自顶而下进行深度优先搜索。
对于渐进式生成概念格的求解过程中，要着重解决三类问题：
⑴如何生成新节点；
⑵如何避免重复节点的产生；
⑶如何更新连接节点的边。
（3）并行算法
并行算法是针对于数据规模较大时，概念格求解在时间复杂度和空间复杂度上计算量日益突出而提出的，问题的主要矛盾在于如何协调集中式的数据存储方式与串行式的算法设计。并行算法思想的提出依赖于高性能计算机与网格并行计算的能力，是综合了批处理算法的并行性与渐进式算法的高性能性。
国内对于此类算法的研究并不是很多，谭喆论述了如何将不一致的形式背景转化为独立背景或是一致性背景，从而解决了概念格并行构造算法的基础性问题，文献等也有较为详细的介绍。算法思想是在构建概念格之前，先进行形式背景的拆分，拆分成诸多个分布存储的子形式背景，进而同时并行的构造每个子形式背景所对应的子概念格，最后将所有的子概念格合并得到最终的概念格。作者认为，随着形式背景的日益庞大，此类算法具有很好的发展空间，是今后概念格构造类算法发展的主要趋势。

四、概念格应用

概念格理论与方法日渐成熟，在诸多领域中得到广泛应用，本文列举三个较有特色的应用研究领域进行介绍。

1. 本体构建与融合

由于概念的形式化研究与形式逻辑中关于本体的描述较一致（为什么要将概念格与本体的研究结合），所以将概念格与本体研究结合符合两者的发展需要，也具有某种必然性．实际上，概念格为本体研究提供扎实的理论基础:

一方面概念节点清晰刻画对象与属性之间的对应关系，这是本体研究感兴趣的内容;
另一方面，概念节点之间的多重继承和内隐关联为本体知识发现提供丰富的结构信息。不仅如此，概念格较成熟的构建算法和融合技术也为本体研究提供参考。

2. 知识表示、发现与推理

概念格的节点是知识表示的基本单元，Hasse图又反映原始数据隐藏概念之间的传递关系与知识结构层次，即概念格本身就是知识表示与发现的一种有效工具．此外，基于概念格的规则挖掘也为知识推理提供方法和技术支撑，具有良好的应用前景。

3. 认知计算

概念格的节点形成方式和层次结构的构建模式与人类进行认知的过程相一致，可应用于认知计算领域，有助于完成特定知识的认知过程。

五、还有哪些问题有待解决

1. 概念格模型推广存在的问题

概念格模型推广是概念格研究与发展的必然要求。换言之，只有获得特定概念的研究对象，才能进一步考虑其它问题。
目前，概念格模型推广主要基于构造性方法进行研究，它的优势是能直观描述清楚扩展概念的具体表现形式。然而，从数学的角度而言，还需要进一步讨论扩展概念的公理化描述方法，因为公理化可抽象扩展概念的原型，揭示其遵循的核心规律，有关工作属于理论上的重要创新。
文献经典概念和近似概念的公理化，但绝大部分的扩展概念仍缺乏公理化结果。
因此，扩展概念的公理化是一个具有挑战性的问题，有待今后进一步深入研究。

2. 概念格构造存在的问题

现有的很多概念格构造算法都综合考虑多种策略（技术驱动、计算模式驱动、应用驱动）的组合。不难预见，今后研究概念格构造算法依然会延续这条道路。最后，尤其需要强调的是，随着量子计算、DNA(Deoxyribonucleic Acid)计算、认知计算等新兴计算模式的不断涌现与普及，以及大数据、人工智能、移动 Web 服务等各种实际应用需求的井喷，概念格构造算法的研究与发展充满机遇与挑战。

3. 概念格约简存在的问题

由于属性约简的语义非常清晰，例如现有的四种常规属性约简———①保持概念格结构不变的约简、②保持交(并)不可约元的约简、③外延集不变的约简、④粒约简，所以具有较好的应用前景。
截至目前，这些属性约简方法离实践应用仍有不小的差距，主要有两方面的原因:
1)有些约简方法无法回避构建概念格，会涉及庞大的计算量，令用户望而却步;
2)约简算法还不够完善，计算约简本身有时也相当耗时。此外，需要继续提出更多面向用户实际需求的简易约简方法。

4. 基于概念格的规则提取存在的问题

模糊决策蕴涵较复杂，理论上表现在模糊逻辑推理方面，计算上体现在急剧增多的规则数量。这个不难理解，因为模糊概念格和经典概念格的节点个数相差太悬殊。此外，受模糊决策蕴涵中模糊逻辑因素的影响，要联系模糊决策蕴涵与模糊形式背景中特定的数据分析任务较困难。
通常后者的研究超前于前者，所以模糊形式背景的模糊概念格及其约简引起学者们的关注，但对模糊决策蕴涵的研究却相对较少。除了受复杂的模糊逻辑因素的影响，模糊决策蕴涵的研究较少，还与构建模糊概念格涉及繁琐的计算有关。上述问题对模糊决策蕴涵的发展带来极大挑战，有待今后深入探讨。

5. 概念知识空间存在的问题

1)基于概念知识空间的概念学习未讨论概念知识空间的极小化，实际上它与概念学习任务是密切相关的，有可能存在一些粒概念相对于概念学习任务是冗余的。
2)基于概念知识空间的概念学习方法尚未与其他领域的同类方法进行全面对比，因此独特性有待进一步考察。
3)基于概念知识空间的概念学习未讨论如何对错误概念进行识别与修正，与人脑的概念认知过程不完全吻合，这方面或许可以借鉴文献的一些研究思路。
4)基于概念知识空间的增量学习分类算法在增量学习过程中通过新样本对概念知识空间进行更新时，未讨论新样本对分类性能的影响，即有可能添加对分类结果造成干扰的新样本，从而产生负面影响。
5)基于概念知识空间的增量学习分类算法目前只考虑样本是单标签的情况，而现实中有些样本可能携带多个标签，所以仍需进一步提出适用于多标签样本的增量学习分类算法。
总之，无论是基于概念知识空间的概念学习研究，还是基于概念知识空间的增量学习分类算法，都只是刚刚起步，相关理论与方法有待进一步完善。

6. 概念格的粒计算方法存在的问题

1)对于同个多粒度数据分析任务，从哪些角度去判断这两种方法孰优孰劣?如果各有优势，那么这两种多粒度数据分析方法能否进一步融合得到更有效的模型。
2）现有的基于概念格的粒描述方法是在给定描述语言的情况下讨论目标粒的描述，即利用某一类概念格研究粒描述．为了提高粒描述的精度，应继续探讨多种概念格相互协助的粒描述。
3)现有的基于概念格的粒描述方法都是针对静态数据进行研究，现实中的数据往往处于动态更新的环中，如何通过更新已有的粒描述生成新的描述结果？
4)现有的基于概念格的粒描述方法与粒计算领域中的粒描述方法尚未进行对比研究，优势和性能有待进一步评估。
5)在当今大数据时代，海量数据基本上都是分布式存储在空间各异的服务器上，它要求粒描述方法必须适用于分布式环境，这意味着今后需要开发相应的粒描述分布式技术。

7. 概念格应用存在的问题

1）基于概念格的本体研究
该方向已取得一些初步的研究成果，可适应时间序列模式和多维空间结构融合的本体研究，但这还远远不够，如在多粒度多维度动态数据等复杂环境下如何实现本体快速构
建与有效融合？
2）基于概念格的知识表示、发现与推理
概念格自身就是知识表示与发现的一种载体，不仅如此，还可通过概念蕴涵实现规则推理，这方面相关的理论与方法均较成熟。然而，以概念格为基础的知识表示、发现与推理，受概念格构建的影响会产生大量的计算成本，因此未来急需大幅提高建格效率。
3)基于概念格的认知计算
概念格自身的形成过程在某种程度上体现知识认知的规律，也较适合模拟人脑的认知过程。但是，人脑的认知过程不是简单机械地重复一个过程，它还包含一定的不确定性。为了更好地模拟人脑的认知过程，需要将认知的修正功能及认知遗忘和认知重现等复杂因素考虑在内，这是一个有挑战性的研究课题。
4)基于概念格的聚类分析
概念格的节点和层次结构都反映聚类的特性，今后有望成为机器学习领域的一个重要研究内容。
基于概念格的聚类方法的优势：附带额外的语义信息而使结果更具有可解释性；
劣势：概念格的计算量太大。
目前，传统的方法还不适合大规模数据的聚类分析，有待改进传统方法以适应大规模数据的聚类分析。

8. 其他问题

如何提高概念格构造效率是形式概念分析理论中的重要课题。
基于概念格的规则提取的研究工作的瓶颈问题是如何大幅提高计算效率。
有待继续提出实用性较强、特色鲜明的扩展概念，丰富现有的概念格模型。
概念格理论与方法研究公开的问题。
例如，概念的形式化描述要求外延与内涵之间相互唯一确定，但在某些情况下外延与内涵可能无法做到一一对应，所以现有的概念研究方式需要革新。
传统概念格理论方法研究过于注重严格表示，现实使用不便。
传统的概念格理论与方法研究太注重概念的严格表示，而现实中人们对概念的使用较随意，因此需要在更宽松的要求下建立新的概念表示方法。

参考：
《概念格理论与方法及其研究展望_李金海》
《气象灾害形式概念分析模型_渠寒花》
《基于概念格的领域本体概念相似度提取方法研究_王凯》