[过程挖掘 Process Mining] Conformance Checking(一)

[过程挖掘 Process Mining] Conformance Checking(一)

第一章:

重点是过程发现。在今天的讲座中,我们将介绍
另一个非常重要的过程挖掘任务,即一致性检查


1.1 Introduction to Conformance Checking

在这里插入图片描述
假如,我们不想再发现一个过程模型,但我们想比较一个过程具有相应事件日志的模型。在进行一致性检查时,我们需要考虑这四个方面。检查技术,重放适应度,重放模型上事件日志的能力是关键这是最重要的。但这并不意味着另一个尺寸并不重要。在这里插入图片描述
重放我们在模型顶部的日志中看到的痕迹。我们已经执行了a和c,现在事件日志说我们应该做e。但如果你看看模型,看看我们现在的状态,e尚未启用。因此,我们需要推动这一进程,尽管我们看到了一些东西不完全适合。但在这样做的同时,我们在这样做的过程中也记录这些问题的类型,这也是我们计算适应度的原因。我们就是比较观察到的行为和模型化的行为。
在这里插入图片描述
我们可以显示的诊断类型是事件日志级别的诊断。例如,这些跟踪不适合模型。我们还可以在模型级别提供诊断,显示模型中经常偏离现实的部分。或者我们可以看看全局指标。例如,我们经常会看到一个适应度指标,其值介于0和1之间,其中0表示适应度非常差,而适应度为1则表示根据模型,日志中看到的一切都是可能的。
在这里插入图片描述
致性检查的用例是什么呢?第一个用例与审计和遵从性相关。业务流程层面的事情。我们想明白,人有偏差吗?为什么会偏离?报告的事情是否正确?另一个用例是,我们希望使用一致性检查来评估流程发现算法及其结果的质量。我们通常还希望根据实际行为检查与某些规范的一致性。例如,如果我们有一个软件,并且该软件有一个描述它应该如何工作的规范,那么我们可以将它与真实的事件日志进行比较,看看软件偏离规范的地方。另外,如果我们提供服务,我们还可以检查服务的描述是否与实际行为一致。因此有许多不同的用例。对于所有这些情况,我们需要有一个模型来检查事件日志。在我们的例子中,这些模型通常是一个Petri网。但它也可以是任何一组规则或任何一组捕获某种行为的模型。
在这里插入图片描述

如果我们看一下审计,基本思想是检查所报告的内容是否正确。这样做是为了检查业务流程是否在管理者、政府和其他利益相关者设定的边界内执行。这些边界用一个过程模型或一组规则来表示。人们可以把规则看作是小流程模型。在过去的几年里,人们对合规性和审计相关问题给予了很大的重视。你们很多人都知道萨班斯-奥克斯利法案。这是指为确保组织按照他们所说的去做而制定的立法。一个完全不同的用例是进程发现算法的评估。在这里插入图片描述
在这里插入图片描述
假设我有四个算法。我使用这些算法。我有四个过程模型。然后我想知道哪种是最好的进程发现技术。我们可以使用一致性检查对它们进行比较,通常从适合度、简单性、泛化和精确性四个维度进行比较。
在这里插入图片描述
这不是一件容易的事。如果我们尝试比较不同进程发现算法的结果。或者当一个进程发现算法有很多参数时。我们还可以创建许多发现的模型。我们能看到的最好的模型是什么?在这个图中,每个红点对应一个发现的过程模型。这两个维度表明了模型的拟合度和精度。那么问题是,什么是好的模型可以考虑?这不是一个最好的模型,因为在这个图中你可以清楚地看到,在精度和适应度之间显然存在着一个折衷。所以,如果我们在所谓的Pareto前面选择一个模型,那么我们将看到一个模型,其中没有其他模型在所有维度上都更好。因此,这里突出显示的模型是Pareto最优的。而且,由于该模型存在,如果我们仅仅从这两个维度看,灰色模型就不能达到帕累托最优。我们可以看看帕累托前面的另一个模型,您可以看到,有几个模型被丢弃。因为它们主要由模型所主导,帕累托前沿的模型。你可以在帕累托前面的所有模型上做,然后我们得到红点。如果我们对这两个维度感兴趣,这些都是我们应该检查的模型。在这里插入图片描述

其他模型并不有趣,因为总是有一个模型更好,或者至少在所有维度上都是一样好的。到目前为止,我们考虑了两个维度,适应度和精度,在这个图中,您可以看到模型5被模型2所控制,因为模型2在适应度方面更好,在精度方面也更好。但是,如果我们包含第三个维度,那么模型5可能位于Pareto前面。因此,如果我们,例如,绘制适合性与简单性的图,可以看到,如果您看模型5,它不再被模型2或其他任何模型所支配。在这里插入图片描述
其他模型总是有一个模型更好,或者至少在所有维度上都是一样好的。到目前为止,我们考虑了两个维度,适应度和精度,在这个图中,您可以看到模型5被模型2所控制,因为模型2在适应度方面更好,在精度方面也更好。但是,如果我们包含第三个维度,那么模型5可能位于Pareto前面。因此,如果我们,例如,绘制适合性与简单性的图,可以看到,如果您看模型5,它不再被模型2或其他任何模型所支配。因此,没有一个模型在同一时间比模型5具有更好的适应度、精度和简单性。比较和发现模型并不容易,因为一个模型在适应度方面可以更好,但在简单性或其他方面更糟。所以没有最好的模特
在这里插入图片描述
让我们回到法规遵从性相关的问题上。因此,我们将事件日志与流程模型进行比较。如果有偏差,一个明显的问题是,模型是错误的还是日志错误的?两者都可能是这样。因此,偏差可能被认为是好的或坏的。在这种情况下,我们经常谈论打碎玻璃的问题。在许多过程中,人们故意偏离了这个过程,这样做是好事。例如,在医院,医生会偏离,并且由于这些偏差,他们正在拯救病人的生命。我们也可以寻找积极的偏差。偏离但以积极的方式的事情。所以偏差并不总是负的。而且,流程模型是正确的,事件日志是错误的,并非总是这样。到目前为止,我们一直在讨论一致性检查,主要是离线的。当然,在运行时也可以这样。在线一致性检查意味着,一旦发生偏差,您立即生成警报。在接下来的几节讲座中,我们将重点讨论一致性检查技术,因此我们通常只关注控制流。我们通常也不考虑模型的简单性。当然,我们可以对数据或时间的模型进行一致性检查例如,模型指定应在30天内处理案例。但是我们将要研究的第一种技术并不是这样做的。在下一节课中,我们将介绍三种方法:因果足迹、基于令牌的重放和基于对齐的一致性检查。

1.2 Conformance Checking Using Causal Footprints

****加粗样式****
在许多情况下,我们希望比较模型化和观察到的行为。今天我们将讨论一种特殊的检查一致性的技术。这种技术被称为因果脚印(causal footprints),其思想是基于alpha算法的一个组成部分。当我们引入alpha算法时,我们使用了这样的矩阵。这称为特定日志的迹线。我们使用的概念,如因果关系,平行,和选择。它们建立在直接继承关系的基础上。例如,如果您查看这个特定的因果足迹,您将看到这个箭头指示a后面跟b,在日志中至少有一次,但是b后面跟a的情况从来不是这样的。这个平行符号表示b有时跟c,c有时跟b。所以它们是双向的。然后是这个符号,它是选择符号,它表示b永远不会跟在e后面,e永远不会跟在b后面。因此,这些是创建足迹的要素,认识到我们可以基于日志创建足迹是非常重要的。但是我们也可以在模型上创建一个足迹,因为模型可以生成轨迹。同时,通过对这些模型的静态分析,我们已经可以推导出这个矩阵以及所有的因果关系。
在这里插入图片描述

在本例中,有一个由alpha算法发现的过程模型。两者都有相同的因果足迹,因此没有区别。我们接下来要做的是看一看更复杂的日志,我们要考虑四种不同的流程模型。有些和原木很相配。其他人则不然。我们将用脚印来分析这些差异。让我们看看完整的日志以及与之相关的因果关系。如图所示。如果我们应用alpha算法,我们得到右边显示的模型。在这个模型中,当我们分析它的时候,我们发现了完全相同的足迹。所以原木和模型的足迹是一致的。在这种情况下,我们说基于封装外形的一致性等于1。这意味着有一个完美的匹配。如果基于封装外形的一致性度量值非常低,则意味着日志和模型之间没有很好的匹配。这被计算为logmodel一致的footprint矩阵中单元格的分数。
在这里插入图片描述


![在这里插入图片描述](https://img-blog.csdnimg.cn/20210423192527312.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3Rhb2lzdDE5OTc=,size_16,color_FFFFFF,t_70) 现在让我们看看第二个模型,它与原始事件日志并不完全匹配。例如,如果你在这里看a和d的单元格,你会发现a后面永远不会跟d。这后面紧跟着b和c,但从来没有紧跟着d,这是原始日志中的情况。因此,我们可以根据这个模型创建这样一个因果足迹。然后我们可以将模型2的足迹与原始事件日志进行比较。我们可以把这两个矩阵放在一起,看看它们的区别。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
例如,我们可以看到,在日志中,a后面有时跟d,但决不是相反。在模型中,模型N2,a和d从不跟随在一起。所以我们看到了不同。我们还可以看一下b和d,在事件日志中,它们被认为是并发的,因为它们以任何顺序发生。但是如果我们看模型N2,我们会发现b后面跟着d,但是d后面永远不会跟着b。这样我们就可以分析原始对数和N2模型之间的所有差异。这里强调了不同之处。我们可以数一数然后诊断。所以在矩阵中我们只看到了不同。例如,我们可以看到,如果我们看b和d,在日志中是平行的,在模型中是顺序的。我们可以计算这些差异。所以有64个细胞。在其中12个细胞中,存在分歧。所以它是1减12除以64,这是基于封装外形的一致性0.8125。所以,这样我们就可以量化对数和模型之间的差异。


![在这里插入图片描述](https://img-blog.csdnimg.cn/20210423193431238.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3Rhb2lzdDE5OTc=,size_16,color_FFFFFF,t_70) 我们还可以提供如下所示的诊断。封装外形矩阵的元素,如果模型和日志不一致,可以在模型中可视化它们。例如,这里的可视化显示,在原始日志中,a可以后跟d,但这已经不可能了。所以,我们可以诊断差异,也可以量化差异。现在我们来看一个问题。所以,现在我们采用另一个模型和我们之前考虑过的两个模型。我想请您根据原始事件日志和这里显示的模型来估计基于封装外形的一致性。那我们怎么计算呢?我们采用事件日志的原始足迹矩阵。我们获取模型,然后查看模型的足迹矩阵与原始日志的足迹不一致的地方。这些在这里突出显示。所以我们可以看到,在这个模型中,很多活动都缺失了。模型中丢失的这些活动将永远不会跟随另一个或任何其他活动。而在最初的事件日志中,他们做到了。我们可以再次计算差异。在这种情况下,有16个单元格的日志和模型不一致。这导致基于封装外形的一致性为0.75。

在这里插入图片描述
在这里插入图片描述

让我们看看另一个模型。这是花模型,它允许许多行为。再次,尝试估计原始日志和这个花模型之间基于足迹的一致性。为了回答这个问题,我们和以前一样。我们获取原始的封装外形,并将其与流程模型的封装外形进行比较。这个过程模型允许比我们在日志中看到的更多的行为。因此,如果我们将差异可视化,你可以看到总共有45个不同的单元格,这导致0.29的一致性非常低。
在这里插入图片描述

所以这比我们之前看到的三个模型的一致性要差。因为这个花模型允许大量的额外行为。因果脚印非常灵活。从某种意义上说,您可以将日志与日志进行比较,可以将模型与模型进行比较,还可以将模型与事件日志进行比较。所以我们可以做很多不同的比较。它还隐式地捕获适合度、精度和泛化,但以一种相当间接的方式。这种方法也有许多局限性。例如,我们不查看日志中记录道的频率。行为只是间接的。在构建足迹度量时,我们只考虑直接遵循关系。因此,可以有两个具有完全相同的占用空间的不同进程,尽管它们的行为不同,只要它们具有相同的关系。我们一次性解决了适应度、精度和泛化等问题。希望最好为这些不同的一致性维度提供单独的度量。这就是为什么在接下来我们将研究其他的一致性检查技术。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值