Predicting Process Performance: A White-Box Approach Based on Process Models

好菜一码农

已于 2022-03-25 11:52:54 修改

阅读量790

点赞数

分类专栏： process mining 文章标签：算法机器学习数据挖掘

于 2021-12-13 17:49:54 首次发布

本文链接：https://blog.csdn.net/taoist1997/article/details/121878842

版权

process mining 专栏收录该内容

7 篇文章 6 订阅

订阅专栏

1 本文贡献

本文提出了一种白盒式的预测运行过程实例性能指标的方法。其关键思想是首先在活动的级别上预测性能指标，然后通过流分析技术在流程实例的级别上汇总这些预测。本文在预测正在进行的过程实例的剩余周期时间的背景下发展了这一想法。所提出的方法已经在真实的事件日志上进行了评估，并与几个基线进行了比较。

2 主要内容

预测性业务流程监控技术寻求基于从历史事件日志中提取的模型来预测正在进行执行的流程的未来状态或属性。已经提出了广泛的预测业务流程监控技术，例如预测下一个活动或剩余活动序列，或定量过程性能指标，例如进程实例的剩余周期时间这些预测可用于提醒流程工作者注意有问题的流程实例或支持资源分配决策，本文解决了预测定量过程性能指标的问题，特别关注预测正在进行的流程实例的剩余周期时间现有的关于这个问题的解决方法采用了一种“黑盒”的方法，通过建立随机模型或回归模型，给定一个过程实例，预测剩余的执行时间为单个标量值，而不寻求用更基本的组件来解释这个预测。然而，定量的性能指标，如成本或时间，是构成该过程的活动的相应性能指标的聚合。例如，具有顺序执行的活动的进程实例的周期时间包括在该进程实例中执行的活动的周期时间之和。在这方面，现有的技术允许我们预测运行流程实例的性能指标的聚合值，但它们没有解释每个活动如何有助于此聚合预测。基于这一观察结果，本文提出了一种透明的“白盒”方法来预测运行流程实例的定量性能指标，基于一种通用的定量流程分析技术，称为流程分析。流分析的想法是通过在过程中的活动水平上聚合该性能指标的估计值来估计过程水平上的定量性能指标，并考虑到这些活动之间的控制流关系。因此，为了预测一个正在进行的流程实例的性能指标，我们首先应用回归模型来估计在此流程实例中可能执行的每个活动的性能，然后我们使用流分析对这些估计进行汇总。除了提供可以追溯到个人活动水平的预测外，我们通过对现实业务流程事件日志的实证评估表明，相对于几种最先进的“黑盒”基线，所提出的技术实现了可比性，有时甚至更高的预测精度。

3 流分析

流分析是一系列技术，它能够在给定关于流程活动性能的知识下估计流程的整体性能。例如，如果知道每个活动的平均周期时间，则使用流分析可以计算整个过程的平均循环时间。流分析还可以用于计算了解每个活动的进程实例的平均成本，并了解每个活动的每次执行成本，或者根据给定的每个活动的错误率来计算进程的错误率。由于流分析通常应用于BPMN符号中描述的结构化过程模型，因此估计可以很容易地用其基本组件来解释。
为了理解流分析是如何工作的，我们从一个具有事件顺序SESE片段的过程的例子开始，如图a所示。
在这里插入图片描述
每个片段都有一个循环时间Ti。由于片段是一个接一个地执行的，我们可以直观地得出结论，具有N个片段的纯顺序过程的循环周期CT是每个片段的周期时间之和：

现在考虑一个在N个排他片段之间有一个决策点的过程，由一个XOR网关表示(图b)。
在这里插入图片描述
在这种情况下，该过程的平均循环时间：

其中，pi表示分支概率，即运行到决策网关的给定分支i的频率。

在这里插入图片描述
同时执行的并行网关如图c所示，多个片段的组合周期时间可以由最慢的片段确定，即：

一个过程的片段可能会重复多次，例如，由于质量控制失败。这种情况被称为返工，如图d所示。该片段将被执行一次。
在这里插入图片描述

接下来，它可以每次重复，概率r称为返工概率。假设第N次返工的概率不依赖于N的值，则执行返工片段的次数遵循期望值为1/(1-r)的几何分布。因此，在这种情况下，片段的平均循环时间为：在这里插入图片描述

4 实验方法

提出的方法利用历史执行跟踪来发现一个结构化的流程模型。一旦该模型被发现，我们就会确定它的活动集和决策点集，并训练两组机器学习模型（本文应用了所谓的eXtreme梯度增强(XGBoost)）：一个用于预测每个活动的周期时间，另一个用于预测每个决策点的分支概率。为了在运行时的性能，这些步骤将脱机执行（图3
在这里插入图片描述

Discovering Process Models from Event Logs

在第一阶段，使用启发式挖掘或Fodina挖掘从日志中发现一个模型在它们已经被证明能够始终产生准确但潜在的非结构化甚至不健全的模型。在第二阶
段，通过应用两种技术将发现的模型转化为可靠的和结构化的模型：最大限度地块结构无环过程模型和块结构流程图技术的扩展版本。
一个结构化的模型在内部被表示为一个进程树。进程树是一种树，其中每个叶子被标记为一个活动，每个内部节点被标记为一个控制流操作符：序列、排他性选择、非排他性选择、并行性或迭代。
至此，图三的上半部分已经结束了。

Replaying Partial Traces on the Process Model

对于给定的部分迹，为了预测其剩余时间，我们需要确定迹相对于进程模型的当前状态。为此，我们使用该技术映射或对齐到流程模型的迹，该技术将流程模型视为由活动作为节点及其顺序依赖关系为弧组成的图形。案例重放可以看作是一系列协调的移动，包括模型活动和网关上的移动以及迹事件上的移动。从这个意义上说，案例重放也被称为流程模型和迹的对齐。理想情况下，这种对齐应该会导致模型上的活动标签和迹中的事件标签之间产生尽可能多的匹配，然而，实际上，重放可以选择跳过一些活动或事件，以在以后的移动中寻找更多的匹配模型上的运动必须观察底层建模语言的语义，而这通常是由令牌的概念来表示。
该算法可以通过从根节点开始遍历进程树来说明，例如使用深度优先搜索，其中节点代表部分候选解决方案状态（图4）。
在这里插入图片描述

这里的状态表示上述案例重放的对齐状态。在每个节点上，算法根据沿根到当前节点路径累积的成本检查该节点的对齐状态是否足够好。如果对齐良好，它将生成该节点的一组子节点并沿着该路径继续；否则，它停止在该节点，即它修剪节点下的分支，并回溯到父节点以遍历其他分支。

Obtaining the Flow Analysis Formulas

确定了案例执行的当前状态后，我们从该状态开始到流程完成，遍历流程模型，以获得流分析公式。作为一个正在运行的示例，让我们考虑图5中的
一个简单的流程模型。
在这里插入图片描述
应用前面所述的流量分析公式，该过程的平均循环时间可以分解如下：
考虑到，我们有一个部分跟踪hd（σ）=<A，D，B>在图5所述的给定模型上回放这条跟踪，我们发现当前标记处于AND块内的状态B和D。将过程模型遍历从这些状态开始一直到过程结束，在剩余的hd（σ）周期时间内，我们得到了以下公式：在这里插入图片描述
由于活动A、B和D已经被执行，因此它们不会贡献剩余的周期时间。因此，它们并不是公式的一部分。所有其他的公式项都需要使用来自hd（σ）的数据进行预测。类似地，如果当前标记在XOR块内，则不需要预测其分支概率。相反，实际被取出的分支的概率设置为1，而其他概率设置为0。
当前标记在返工循环内时，会出现更复杂的情况。在这种情况下，我们“展开”了循环，如下图所示。在这里插入图片描述
具体来说，我们将返工片段的已执行的出现与未来可能发生的事件分开，并将前者从循环中删除。让我们考虑一个部分轨迹hd（σ）=<A、D、B、C、F、G、H>由于H已经发生过一次，根据过程模型
（图5），概率为r，它可以重复，否则，返工循环将退出。为了表示这个选择，我们将H的第一次出现走出循环，并在它之后放置一个XOR网关。其中一个分支将包含一个具有相同概率r的未来事件的返工循环，而另一个分支将反映一个完全跳过该循环的选项。因此，整个片段的循环时间可以分解如下
：
在这里插入图片描述

5 特征编码

1、训练多个预测模型，每个可能的前缀长度都有一个。
在单一的预测模型方法中，我们通过从相应前缀日志的每个前缀中提取以下数据来创建特征向量：
案例属性。这些属性是静态的，因为它们不会随着情况的进展而改变。因此，它们可以简单地附加到特征向量上。
聚合事件属性。由于事件属性是动态的，即跟踪中的每个事件都有自己的属性值，为了将它们编码到一个固定长度的向量中，我们应用了几个聚合函数。对于数值属性，我们计算它们在部分情况下的平均值、最小值和最大
值，以及它们的和和标准差。对于分类属性，我们计算特定级别出现的次数（例如，特定活动被执行的次数，或特定资源执行了多少活动）。
2、使用案例属性和已执行事件的聚合属性来训练单个预测模型。
在多重预测模型方法中，我们连接案例属性，并对于迹中的每个位置，在该位置发生的事件以及该位置的每个事件属性的值。一般来说，对于具有U个案例属性的案例：
在这里插入图片描述
其中，s是案例属性（case attributes），e是事件（event），d是事件负载（ payload）

6.评估

数据集

在这里插入图片描述

度量

准确性（Accuracy）：为了评估连续变量预测的准确性，众所周知的误差指标是平均绝对误差(MAE)、平均方根误差(RMSE)和平均百分比误差(MAPE，其中MAE被定义为预测误差的算术平均值，RMSE为平方预测误差平均值的平方根，而MAPE测量误差为无符号百分比误差的平均值。我们观察到，剩余时间的值在同一过程的情况下往往变化很大，有时其值在不同的数量级上。RMSE将对这种异常值非常敏感。此外，剩余的时间可以非常接近于零，特别是接近迹的末端，因此在这种情况下MAPE会被倾斜。因此，我们使用MAE来测量预测剩余时间的误差：
在这里插入图片描述
早期性（Earliness）：衡量预测的早期性的一种常见方法是在每个到达事件后或在固定的时间间隔内评估模型的准确性。自然，不确定性随着情况的完成而减少。因此，越早达到期望的精度水平，该技术的可靠性就越好。

基线

1、本文方法与几种基线方法进行了比较。首先，使用黑盒方法，使用与基于流分析的方法相同的特征集和相同的学习算法来预测剩余时间。类似地，同时用单一预测模型和多个预测模型变量进行实验，修改了一些黑盒技术，决策树被XGBoost取代，因此结果可以与我们的方法（相同的底层机器学习技术）相媲美。2、用回归法代替分类，其次，使用了vanderAalst等人提出的一种基于变迁系统(TS)的方法。同时应用集合、包和序列抽象。最后，使用基于随机Petri网的方法。具体来说，使用了基于受约束的Petri网的方法，因为它的预测误差最低。然而，他们最初的方法是在固定的时间点做出预测而不管到达的事件如何。为了使结果与本文的方法相比较，我们修改了方法，在每个到达事件后做出预测。

评估结果

在大多数数据集中，我们可以看到MAE随着病例的进展而减少。当情况接近完成时，预测任务自然会变得微不足道。BPIC‘12A数据集，随着前缀长度从2增加到4，预测变得不那么准确。这种现象是由于这个数据集包含了一些短的迹，而这些迹似乎很容易预测结果。这些短的迹不包括在以后的评估点中，因为它们那时已经完成了。因此，我们只留下更长的轨迹，这似乎对分类器来说更具挑战性，从而降低了较大的前缀长度的总精度。
所有数据集中的平均排名：BPIC‘12A中，基于单一预测模型的预测FA和自适应FA都排名第一，其次，最好的技术是基于多个模型的预测FA排名第三。
排名显示了所提出的流程分析方法，特别是自适应变体，除了提供白盒预测外，在准确性(由MAE测量)方面始终优于基线。
聚合的误差值：自适应流分析的所有数据集的平均误差为平均病例持续时间的48%。相比之下，自适应流分析的MAE值在前缀长度上不太稳定。

7结论

本文提出了一种透明的“白盒”方法来预测定量过程性能指标的一些潜在好处。没有预测单个标量指标，而是演示了如何将这些指标估计为组成该过程的活动的相应性能指标的聚合。通过这种方式，预测的指标变得更可解释，因为它们被分解为基本成分。因此，业务分析师可以查明流程执行中的瓶颈，并提供更好的建议，以保持流程符合性能标准。我们实现和评估了三种方法——一个公式的组件基于模型训练历史完成轨迹预测迹前缀，另一个使用常量的值获得的历史平均值相似的迹，最后，一个混合方法，结合了上述两种方法的优势。我们评估了这三种方法来预测剩余的周期时间，这是一个常见的过程性能指标。实证评估表明，平均而言，在运行案例的不同阶段能够比调查的基线产生更准确的预测。本文确定了在处理使用返工循环的迹时，基于流分析的方法的一个限制性，即连续行中同一活动片段的多次出现。未来工作的一个方向是进一步调查影响所提出的方法的性能的因素，以便更好地理解它们的优缺点。此外，计划扩展所提出的方法，以便它们能够处理具有重叠循环的更复杂的模型。

好菜一码农

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Predicting Process Performance: A White-Box Approach Based on Process Models

1 本文贡献本文提出了一种白盒式的预测运行过程实例性能指标的方法。其关键思想是首先在活动的级别上预测性能指标，然后通过流分析技术在流程实例的级别上汇总这些预测。本文在预测正在进行的过程实例的剩余周期时间的背景下发展了这一想法。所提出的方法已经在真实的事件日志上进行了评估，并与几个基线进行了比较。2 主要内容预测性业务流程监控技术寻求基于从历史事件日志中提取的模型来预测正在进行执行的流程的未来状态或属性。已经提出了广泛的预测业务流程监控技术，例如预测下一个活动或剩余活动序列，或定量过程性能指标，例如进程
复制链接

扫一扫

专栏目录