第五讲-流程挖掘（Process Mining）学习日志之过程发现基础

最新推荐文章于 2024-04-22 18:28:25 发布

智潮先锋

最新推荐文章于 2024-04-22 18:28:25 发布

阅读量1.5k

点赞数 43

分类专栏：流程挖掘理论学习文章标签：学习人工智能算法数据挖掘数据库

本文链接：https://blog.csdn.net/bzl_bf/article/details/137787199

版权

流程挖掘理论学习专栏收录该内容

10 篇文章

订阅专栏

本文介绍了过程挖掘中的过程发现任务，包括一般过程发现问题和特定过程发现问题，着重讲解了如何通过α算法构建Petri网模型来重现事件日志行为，以及如何在拟合度、精确度、泛化度和简洁度之间寻求平衡。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概要

过程发现 (Process Discovery) 是最富有挑战性的过程挖掘任务之一。基于一个事件日志，我们可以构建出一个反映日志行为的过程模型。本章将采用基础α算法来阐述过程挖掘主题，该算法能够帮助理解过程挖掘算法的一般思想以及过程发现的概念。同时，α算法也为我们讨论过程发现领域的相关挑战奠定了基石。

过程挖掘的三种类型：发现(discovery)、合规性(conformance) 和改进 (enhancement)
过程挖掘的多种视角：控制流视角、组织或资源视角、数据视角和时间视角
关注发现（discovery）以及控制流视角，这两者的结合称为过程发现。

5.1 一般过程发现问题

L 是一个符合 XES 标准（参考第四讲中4.3节）的事件日志。过程发现算法是将 L 映射到一个过程模型的函数，这个过程模型能够代表事件日志所反映出来的行为。其挑战在于寻找这个的算法。

在上述定义中，并没有指定生成过程模型的具体种类，例如一个BPMN 、EPC、YAWL 或者 Petri 网模型。此外，事件日志带有的属性也可以作为输入。尽管此处我们关注的是控制流视角，但 XES 格式允许存储所有视角的相关信息。定义中唯一的要求是行为具有代表性，但是定义并没有说清楚这个要求意味着什么。

该定义比较宽泛和模糊，不但没有指定目标格式，还使用一个可能非常丰富的事件日志作为输入，同时也没有给出明确的要求。为了使事情变得更加清晰，我们将目标定义为一个 Petri 网模型，同时我们使用一个简单事件日志作为输入(参考第四讲定义4.4)。一个简单事件日志 L 是一个轨迹 (trace) 的集合，其中每一个轨迹都是活动集合 B 的子集，即 L∈B(A)，例如：
L₁=[<a,b,c,d>³,<a,c,b,d>²,<a,e,d>]
L₁是一个描述6个案例历史的简单日志。现在我们的目标是找到一个能够“重演”事件日志 L₁ 的 Petri 网。在理想的情况下，这个 Petri 网是一个合理的工作流网。基于上述选择，我们可以重新定义过程发现问题，让它变得更加明确清晰。

5.2 特定过程发现问题

是一个函数，主要的功能是将日志映射到一个带有初始标识的Petri网。理想的情况是日志中的所有轨迹对应着Petri网所可能发生的所有序列。

实例对比

对于工作流网N₁，如下图所示：

其中L₁中的每个轨迹都对应着工作流网N₁中一个可能的发生序列。由此可以看出，工作流网能够重演事件日志中的所有轨迹。而事实上，工作流网N₁中的每一个可能的发生序列都在日志L₁中出现了。
而对于下图：
在这里插入图片描述
L₂ 是一个包含了13个案例的简单事件日志，这13个案例可以被表示为6个不同的轨迹。基于事件日志 L₂，某个过程发现算法γ能够得到如图5.2所示的工作流网 N₂。这个工作流网能够重演日志中的所有轨迹，但并不是 N₂ 中的所有发生序列都对应着日志 L₂ 中的轨迹。例如，发生序列 <a,c,b,e,f,c,b,d> 在 L₂ 中并没有出现。事实上，由于 N₂ 中有循环结构，可能的发生序列有无限个，不可能全部出现在事件日志中。因此，定义5.2 并不要求(N,M) 的所有发生序列出现在日志L 所包含的轨迹中。

我们将关注 Petri 网的发现，因为 Petri 网是简单的、图形化的，并且它能够建模并发、选择和循环。这一点从图5.1和图5.2中可以看出：在两个模型中 b 和 c 都是并行的；在 N₁ 中，a 后有一个选择；在 N₂ 中，每次 b 和 c 完成之后都必须在 d 和 e 之间做出选择。 N₁ 和 N₂ 都是合理的工作流网。在第2章中曾经提到，工作流网是 Petri 网的一个子类，目的是为了建模与分析运作流程(operational process)。过程模型描述实例的生命周期，工作流网清晰地建模实例的创建和完成过程。实例的创建通过将一个令牌(token)放入唯一的源库所 i (即图5.1和图5.2中的库所 start)来建模，而实例的完成则用令牌到达唯一的终结库所o (即图5.1和图5.2中的库所 end) 来建模。指定唯一的源库所i和唯一的终结库所 o，就能够自然地给出合理性需求。一个工作流网 N 合理的充分必要条件是：

(N,[i]) 是安全的，即库所不能同时包含多个令牌；
对于任一标识 (marking) M∈[N,[i]],o∈M 意味着M=[o]，即如果有令牌进入终结库所，那么除终结库所之外的其他库所内没有令牌(正常完成)；
对于任一标识 (marking) M∈[N,[i]]，[o]∈[N,M]，即终结库所总是可达的(可以完成)；
(N,[i])中没有死变迁，即模型的所有变迁都是可达的；
大部分的过程建模表示法 (notation) 使用类似合理性的正确性标准。比如，死锁和活锁是过程无法正常完成的征兆，无论使用何种记号，这些现象都是我们不希望出现的。

拟合度要求

在一般问题陈述中，我们提到过程发现算法得出的模型必须代表事件日志所反映的行为。定义 5.2 使这一要求变得更加可操作，即得到的模型必须能够重演日志中的所有行为，也就是说，事件日志中出现的任一轨迹都是工作流网中的一个可能的发生序列，这被称为拟合度 (fitness) 要求。一般来说，需要在下面4个质量标准之间取得折中：

拟合度 (fitness)：得到的模型应该允许事件日志所反映的行为发生。
精确度 (precision) ：得到的模型不应该允许与事件日志中所反映的行为完全无关的行为出现。
泛化度 (generalization) ：得到的模型应该泛化事件日志中的行为例子。
简洁度 (simplicity) ：得到的模型越简单越好。

一个拟合度良好的模型能够重演日志中的大部分轨迹。精确度与数据挖掘上下文中的欠拟合 (underfitting) 概念相关(参考3.6.3 节)，一个精确度差的模型是欠拟合的。泛化度与过拟合 (overfitting) 概念相关，一个过拟合的模型泛化程度不够，也就是说这个模型太过具体，是由事件日志中的行为例子驱动的。第4个质量标准与奥卡姆剃须刀——“如无必要，我们不应该增加用于解释任何事情的实体数量”相关，根据这一原则，我们要寻找的是一个能够解释事件日志所反映行为的最简单的过程模型。
在这4个质量标准之间取得平衡是一项挑战。例如，一个过于简单的模型往往拟合度过低或者精确度较差。此外，在欠拟合和过拟合之间存在一个明显的取舍。在后续部分再次讨论这4个质量标准，下一节会介绍一个具体的过程发现算法。