[过程挖掘 Process Mining]On The Representational Bias of Process Mining(四)

[过程挖掘 Process Mining] Four Quality Criteria For Process Discovery

The three week:

流程挖掘的四个关键质量维度。我们将看到在适应度、简单性、精确性和泛化性之间存在着权衡,从而使过程发现成为一项非常具有挑战性的任务。


1.1 Four Quality Criteria For Process Discovery

使用这些事件日志,我们可以发现流程模型或者进行一致性检查。然而,这张图片显示的是,我们想谈谈过程模型和实际过程之间的关系。但我们不能这样做,因为真正的过程是未知的。你只能说一些关于事件数据的话。

如果你考虑分类,你试着构造一个混淆矩阵,在混淆矩阵中,你首先指出什么是真正的积极因素。因此,在流程发现的上下文中,这些是模型中可能的痕迹,在实际流程中也是可能的。
在这里插入图片描述


很自然想到数据挖掘中的召回率和精确率,但是,因此,在流程挖掘的上下文中应用它,很快就会发现这是不可能的。 因为 绿色部分表示模型行为。所以根据我们手工制作的模型,或者我们发现的模型,这些卵形之间的重叠越大越好。所以真正的积极因素是真实行为和模型行为之间的重叠。假阴性,我们想避免,因为这是行为,可以发生在现实中,但不可能根据模型。我们也希望避免出现许多误报,根据模型,事情是可能的,但在现实中是不可能的。 Why is it not possible? You know what the behaviors are that are allowed by the model that you have discovered, but you do not know what the real behavior is that the real process allows for. You only see a small set of examples and based on that, you would like to make conclusions. So if you look at the formulas, you can simply not apply them.

在这里插入图片描述


在这里插入图片描述
之前讨论的问题相关的是,我们没有负面的例子。事件日志永远不会告诉你什么是不可能的。我们只能看到发生的事情。日志通常只包含很小一部分可能的痕迹。因此,我们应该避免过度拟合我们正在分析的数据集。
如果一个模型有一个循环,就像一个带有自循环的Petri网,那么它将有无限多可能的轨迹。所以你不能简单地计算痕迹,因为我之前展示的所有公式,都没有任何意义。
我称之为过程挖掘的墨菲定律,它说如果你等待足够长的时间,任何事情都是可能的。因此,这不是一个有趣的问题,是否有些事情是可能的。如果你等得够久,它就会发生。


在这里插入图片描述
模型应该精确。它不应该允许所有与我们看到的事件数据无关的行为。同时,它也不应该太合身。所以应该足够笼统。因此,流程挖掘需要在这四种力量之间找到一个平衡点。


在这里插入图片描述

在这里插入图片描述

Generalization is indeed poor. It is not unlikely that the next trace is different and does not fit into model because all states in the model have been visited only a few times. One cannot be confident that the next batch of traces will fit into the model.

1.2 On The Representational Bias of Process Mining

重点介绍在发现过程中使用的表示。我们可以使用不同的建模符号向最终用户展示发现的流程。然而,这与搜索过程时使用的表示无关,该过程最好地解释了观察到的事件数据。
一直在讨论desire line,作为流程挖掘或流程发现的隐喻。在这里你可以看到一张我女儿骑着自行车穿过这条欲望线的照片。它们表明人们真正做什么。
在这里插入图片描述
现在,考虑到这个观察到的行为,我们想创建一个我们已经看到的行为模型,它也可以预测未来的事情。这就是我们对过去所见的描述,也说明了我们对未来的期望。
(右图是行为,左图是模型)
但是,我们可以看看这种情况,其中黄线表示违反模型的行为。换句话说,模型不允许这种行为,但它还是发生了。所以,如果有一个异常值,或者我们应该修改我们的模型来允许这个不适合模型的特定行为?

所以,你在这里看到的是,我们可以建立一个替代模型,现在有更多的细节,允许黄线。但是这个模型是否太合适了?在我们有一个离群点之前,根据模型这是不可能的。现在我们已经调整了这个模型以适应异常值。这和我们之前讨论过的四种力有关。我们可以有一个完全不适合的模型,允许任何在中间存在的行为。
在这里插入图片描述
我们看这两个模型,我们可以看到一个过拟合和一个欠拟合模型。但这不是我们要讨论的问题。今天我们将讨论用于捕获这些模型的表示。所以,在我们使用圆和其他物体之前,如果我们的基本构造块,我们的建模语言,不允许圆,这些条和这些三角形,但也只允许这个特定的形状,会发生什么呢?

发现技术将试图发现并发性。然而,如果我们用过渡系统来表示,这是对应于同一过程的过渡系统,我们只看到它的一小部分。它有许多不同的状态和许多不同的转换,因为它不能本地捕获并发。因此,当我们使用这种表示时,发现并发性将更加困难。
在这里插入图片描述
同样,如果我们观察复杂的机器,比如X光机,它们是由许多相互作用并同时工作的组件组成的。所以并发性非常重要。那么,我们使用的进程发现符号是否应该能够紧凑地捕获并发性呢?可能是的,如果我们看看有这些类型的行为的过程。并发和OR-join的情况。首先我们来看看并发性,我问你一个问题,这个问题和我们之前讨论工作流网、Petri网和可达图时看到的非常相关
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
petri网和bpmn可以互相转换,但是算法中一般不用bpmn
在这里插入图片描述
一个较小的模型实际上可能比一个较大的模型允许更多的痕迹。但是,这种关系也可以用另一种方式维系。但是大模型比小模型有更多的行为。这使得发现变得困难。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值