【论文翻译】过程跟踪聚类:一种异构信息网络方法

过程跟踪聚类:一种异构信息网络方法

摘要

流程挖掘是从事件日志中提取信息的任务,例如从工作流管理或企业资源规划系统中生成的日志,以便发现底层流程、组织和产品的模型。由于事件日志通常包含各种流程执行,所发现的模型可能很复杂,难以理解。跟踪聚类通过将事件日志分成更小的子集,并在每个子集上应用进程发现算法来帮助解决这个问题,从而使每个子集发现的进程不那么复杂,也更准确。然而,最先进的聚类技术是有限的:相似性度量不是过程感知的,它们不能很好地扩展到高维事件日志。在本文中,我们提出了一个过程事件日志的概念,作为一个异构的信息网络,以获取丰富的语义,并由此衍生出更好的过程特定的特征。此外,我们还提出了一种基于元路径的相似性度量方法SeqPathSim,该方法考虑了异构图中的节点序列,从而得到更好的聚类结果。我们还引入了一种新的降维方法,通过过程模型结构将事件相似性和正则化相结合来处理高维事件日志。实验结果表明,我们提出的方法在准确性和结构复杂性度量上都优于现有的跟踪聚类方法。

1介绍

动机:随着信息技术的进步,企业已经选择自动化他们的日常操作。现实世界的业务流程,包括机票预订、网上购物和行政程序,如采购和招聘,都是使用电子信息系统调用的。图1显示了一个管理贷款申请的简单流程模型——流程的图形表示。节点对应于活动或事件,边缘定义控制流。流程的每个执行实例或跟踪被定义为从开始到结束执行的事件的有序列表。负责执行流程实例的信息系统以事件日志或流程跟踪集合的形式生成大量数据。图2显示了一个流程跟踪的例子,它由一系列事件组成(每一行都是一个事件),并且代表了图1中流程的一个实例。

问题描述:在许多情况下,图1中定义的过程模型可能不可用或者已经过时。然后可以使用过程挖掘算法[16,17]从事件日志中导出过程模型。挖掘过程模型对于深入了解过程在现实生活中是如何执行的也很重要。特别是,过程挖掘的目的是发现或理解一个组织的过程,监控以验证实现的过程是否符合模型,并通过重新设计过程来改进过程,以避免观察到的瓶颈。

从所有观察到的痕迹中挖掘过程模型通常会得到类似意大利面条的模型[23],如图3所示,它说明了建筑许可申请的真实过程的一部分。这些模型太复杂了,人类无法理解,因为它们既复杂又不准确,而且太繁琐,无法修改或优化。一个常见的解决方案是将迹线[8]聚集成连贯的迹线集合,并通过过程模型来表示每个集合。

由于迹线在很大程度上是基于相似性的概念进行聚类的,一个好的迹线相似性度量会导致更高质量的聚类。因此,现有的处理轨迹聚类的解决方案主要集中于将轨迹映射到适当的数据结构[8,11],并导出可由现成的聚类算法[7]使用的新的相似性度量[2,1]。这些方法缺少某些我们认为对拥有高质量集群至关重要的方面。

首先,现有的方法无法从事件日志中获取事件之间丰富的语义关系。例如,共享一个底层角色或属于同一组事件的事件应该仍然有一定程度的相似性。由同一资源(或人员)执行/调用的事件也可能是相似的。因为附加信息(例如,组织、角色、产品信息等。)在现实世界的过程跟踪中通常是可用的,因此希望捕获从这些信息中推断出的额外语义。

第二,现有的方法,尤其是基于编辑距离的方法[1]是不可扩展的。计算一大组轨迹的成对相似性是非常昂贵的,因为基于编辑距离的度量的复杂性是轨迹长度的二次函数。将标准降维技术应用于过程挖掘的努力仅限于基于向量空间模型的方法,其相似性计算并不昂贵[12]。

范围和贡献:在本文中,我们提出了一种新的过程跟踪聚类方法,试图解决上述两个问题。特别是,对于语义鸿沟问题,我们提出了一种新的基于可扩展异构信息网络的过程跟踪数据表示[13],并在网络的节点和边缘捕获丰富的过程语义。通过这种表示,用户可以在网络中的节点之间选择直观的元路径来建模过程轨迹之间的不同语义关系。虽然所选的元路径可以使用现有的PathSim度量[14]直接用于计算迹线之间的相似性,但是PathSim度量不能捕捉迹线中事件序列之间的顺序相似性。因此,我们提出了一种相似性度量方法,它结合了PathSim度量方法获得的对等点相似性和基于编辑距离的方法获得的轨迹之间的顺序相似性。为了克服基于编辑距离的方法的性能问题,我们提出了一种为过程轨迹定制的新的降维方法。具体来说,我们将降维建模为一个优化问题,并提出了一个目标函数来最大化相同维度的事件之间的主题相似性和基于过程模型的关系。由于这种优化问题是NP难的,我们提出了一种贪婪近似算法来解决这个问题。使用跨多个业务领域的真实数据集的实验结果表明,我们提出的方法在有效性和效率方面都优于现有的过程跟踪聚类方法。

论文概述:论文的其余部分组织如下。我们在第2节回顾了相关的工作,在第3节,我们介绍了一些关于异构信息网络的背景和基本概念。我们在第4节中正式定义了跟踪聚类问题。在第6节中,我们将过程轨迹建模为一个可扩展的异构信息网络。我们在第6节描述了我们提出的SeqPathSim度量,在第7节描述了我们的降维方法。实验结果见第8节。我们在第9节以结束语和未来的研究方向结束。

2相关工作

流程挖掘[16,17]是从事件日志中提取知识以发现、监控和改进流程的任务。就发现而言,已经开发了许多技术来从事件日志中发现过程模型,例如阿尔法挖掘器[20]、启发式挖掘器[19]和模糊挖掘器[9]。也有不同的符号来表示过程模型,比如Petri网[18],UML活动图和BPMN [21]。本文使用Petri网对过程建模,使用启发式挖掘器发现过程模型。对于监控,一致性适合度用于回答问题“模型和日志是否相互一致?”。我们使用Rozinat等人[10]开发的一致性检查方法,该方法在ProM框架[22]中实现。已经提出了各种各样的度量来评估过程模型的复杂性[1,3],我们采用了Petri网的结构复杂性度量[1]。

过程轨迹聚类研究的重点是为轨迹开发新的数据表示,并推导出可用于现成聚类算法的轨迹之间的新的相似性度量。最常见的轨迹表示之一是向量空间(或事件包)模型[8,11],其中每个轨迹都表示为一个向量,每个维度对应一个事件类型。迹线之间的相似性使用典型的度量来测量,例如欧几里德距离或余弦相似性。为了更好地捕捉事件的执行顺序。埃尔格列柯等人[8]使用k-gram表示(即,k个连续事件的序列被用作向量空间中的一维)。然而,这种方法不能很好地扩展,因为维数随k成指数增长。其他方法[2,1]提出使用基于序列的相似性度量,如汉明距离和编辑距离。特别是,Bose等人[1]基于3克事件上下文推导出编辑操作成本。Weerdt等人[3]考虑了痕迹聚类和一般聚类算法之间的语义鸿沟问题,并提出了一种基于主动学习的聚类方法来弥补这一鸿沟。我们着重于轨迹的数据表示,并提出了一种新的相似性度量,SeqPathSim,它通过将对等体相似性的丰富语义与编辑距离的顺序距离度量相结合,对以前的方法进行了改进。

挖掘异构信息网络(HIN) [13]是近年来备受关注的一个研究方向,因为它能够捕捉网络中节点和边的结构类型的丰富语义。孙等人提出了PathSim [14],这是一种基于元路径的相似性度量,它捕获HIN中对等对象之间的相似性语义。基于PathSim,还提出了一种用户引导的聚类方法[15],用于对HIN中的对象进行聚类。在这篇文章中,我们提出了另一个相似性度量,即SeqPathSim,在一个HIN中的对象序列之间。我们利用HINs作为过程跟踪的数据表示,并导出跟踪之间的相似性,可用于任何现有的聚类算法。

已经有人建议使用降维技术来解决高维数据集的问题[4]。也有努力[12]使用降维技术来提高过程跟踪聚类的性能,但是这些努力主要集中在向量空间模型表示上。我们提出了一种新的基于序列的轨迹表示降维方法,该方法将现成的降维技术与过程执行模型的正则化相结合,以提高过程轨迹的性能结果

3预备知识:异构信息网络

异构信息网络[13]是具有多种类型的节点(顶点)和多种类型的链路(边)的信息网络(或图)。

定义3.1。异构信息网络(HIN):一个HIN是一个有向图G = (V,E)带有一个节点类型映射函数,其中A (|A| > 1)是节点类型的集合,一个边类型映射函数,其中R (|R| > 1)是边类型的集合。

HIN的一个例子是书目网络,它包含多种类型的节点,如论文(P)、地点(C)和作者(A),以及多种类型的边,如提交(P和C之间)和引用(P和P之间)。

HINs中的两个节点之间可能存在多条路径。元路径由连接两种类型节点的HIN中的一系列关系描述,用于捕获每个路径的下划线语义。比如AP A代表作者之间的合著关系,或者AC P代表论文投稿关系。

为了度量HINs中节点之间的相似性,孙等人[14]提出了PathSim(定义3.2),这是一种利用网络中丰富的语义结构并捕捉HINs中节点之间的真实对等体相似性的相似性度量。

定义3.2。PathSim: 给定一个对称的元路径P,通过元路径P在x和y两个相同类型的对象之间的路径表示为被定义为:

其中是通过元路径P从x到y的路径集。

4问题定义

考虑一组过程轨迹。每个轨迹由一个有限序列组成,1 ≤ i ≤ n,n > 0,其中为所有事件类型的集合。每个跟踪n的事件数可能因跟踪而异。对于跟踪t中的每个事件e_{i},都有一个相关的资源生成或执行该事件,是所有资源的集合。

正如第1节所强调的,使用整个过程跟踪集发现过程模型,可能会产生类似于spaghettilike的模型[16]。因此,本文研究了将划分为簇的非重叠子集的迹聚类问题,使得每个簇代表一个更高精度的底层过程模型。

与经典的数据聚类问题[7]不同,传统的数据聚类问题[7]的目标是最大化精度和召回率(在有基本事实标签的情况下),或者最小化簇内距离和最大化簇间距离(当基本事实标签不可用时),轨迹聚类的目标是将具有相似执行模式的轨迹分组,从而能够发现具有高度适应性的过程模型。具体来说,过程模型的适合度量化了所发现的模型能够准确地再现所记录的痕迹的程度。此外,良好的跟踪聚类结果还应该生成过程模型简单紧凑的聚类。更准确地说,它们应该表现出低程度的结构复杂性

因此,在本文中,我们使用了其他过程跟踪聚类工作中广泛使用的两个度量标准[1,2,3,11]:加权平均适应度,表示为AveFitness,加权平均结构复杂度,表示为AvgComplexity。特别地,对于聚类结果中的每个聚类,生成过程模型(例如,使用启发式挖掘算法[19]),然后转换为用于一致性分析的Petri网模型[18]。发现的过程模型的一致性适合度分数是可以在该模型上完全重放的跟踪的分数。如果所有记录的轨迹都可以由模型重放,则过程模型具有完美的适应度得分。迹线的一组k个簇上的加权平均一致性适应度被定义为,其中是迹线的一个簇的适应度得分。较高的适应度分数意味着给定集群的过程模型更精确。

基于过程模型的图形表示的复杂性来测量结构复杂性。具体来说,给定一个表示为Petri网的过程模型,复杂性是通过计算过程模型中出现的控制流、与连接和拆分以及异或连接和拆分的数量来度量的。与AvgFitness类似,AvgComplexity是基于集群大小的复杂性度量的加权平均值。较低的结构复杂性分数意味着更简单、更紧凑的模型,这可能更容易被人类理解。

给定这些聚类结果质量度量,过程跟踪聚类问题正式定义如下:

定义4.1。过程跟踪聚类:设为一组过程跟踪,为一组事件,为一组资源。寻找 (k ≥ 2)的k-划分:| | = k,∀1≤i,j ≤ k,使平均适应度AvgFitness()最大化,使平均结构复杂度AvgComplexity()最小化。

像其他聚类问题一样,轨迹聚类的有效性很大程度上取决于如何定义轨迹之间的相似性。因此,在这项工作中,我们着重于导出一个相似性函数sim来衡量两个痕迹之间的相似性。这种相似性函数可以与现成的聚类算法[7]一起使用,以产生高适应性和低结构复杂性的结果。

5将过程轨迹建模为HIN

受HINs捕获其他域中节点之间对等相似性的有效性的激励[13,14],我们提出将过程轨迹建模为异构图G = (V,E)(图4a),其中节点集V =由三种节点类型组成:轨迹、事件和资源。这组边E概括了不同节点类型之间的不同类型的交互。我们定义了以下边类型(即R):

  • 事件:是跟踪的一部分。
  • 跟踪:一个事件跟踪另一个事件。
  • 执行:事件由资源执行或生成。

正如我们在第8节中所展示的,上面的节点类型和边关系被选择为最基本的类型和关系,因此它们足够通用,以捕获来自不同域的各种各样的踪迹。然而,可以很容易地用针对特定业务流程域的附加类型的节点和边来扩充HIN模型。例如,一个扩展的HIN模型,如图4b所示,包括一个额外的节点类型“部门”,和两个边缘类型:is-part-of,它捕获资源和它所属的部门之间的关系;和responsible-for,它指示资源负责跟踪。

元路径:给定上面描述的HIN模型,我们定义以下元路径:

  • T ET:共享公共事件的两个轨迹之间的元路径。
  • TEET:由连续事件组成的两条轨迹之间的元路径。
  • TERET:由同一资源执行的事件组成的两条跟踪之间的元路径。

6基于元路径的相似性度量

基于路径的相似性度量:通过将过程轨迹建模为HIN,可以使用HIN中轨迹类型节点之间的相似性度量来计算它们的相似性。特别是,我们考虑基于第5节描述的元路径的路径相似性。

已经表明,多个元路径的线性组合比单个元路径产生更好的结果[14]。因此,在本文中,我们使用以下线性公式组合了由单个元路径获得的路径相似性:

其中是经由元路径Pi的两条轨迹x和y之间基于路径的相似性,并且是与元路径Pi相关联的权重w_{i}。找到最佳权重集{w_{i}}仍然是一个悬而未决的问题,并且与我们的工作正交。类似于以前的工作[14,15],我们假设元路径是在用户指导下选择的。

在使用公式6.2计算每对轨迹之间的路径相似性之后,我们可以应用任何离线聚类算法(例如,分层聚类)来对输入过程轨迹进行聚类。

基于相似性度量SeqPathSim:过程轨迹建模为HIN有助于捕捉网络中节点和边的结构类型的丰富语义。但是,HINs不维护每个过程跟踪中事件的顺序。因此,PathSim无法测量共享相似事件执行顺序的跟踪之间的相似性。例如,基于TEET元路径的路径模型仅表示两个连续事件之间的顺序关系。由于跟踪由多个事件的序列组成,共享相同顺序执行的跟踪通常应该比不共享的跟踪具有更高的相似性分数。因此,重要的是要有一个新的相似性度量来捕捉HIN中两个事件序列(即两条轨迹)之间的相似性。

编辑距离[5]通过计算将一个序列转换为另一个序列所需的最小操作数来量化两个序列的相似程度。编辑距离在文本挖掘、过程挖掘和生物信息学等多个领域中都能有效地度量序列数据之间的相似性。

基于需要利用进程跟踪中事件的两个连续执行之间的相似性,我们提出了SeqPathSim:一种新的HINs相似性度量方法,它将PathSim捕获的节点之间丰富的语义关系与编辑距离捕获的序列相似性相结合。特别是,SeqPathSim使用通用编辑距离[5]

通用编辑距离的性能在很大程度上取决于如何定义编辑操作(即替换、删除和插入)的成本。例如,使用单位成本,即Levenshtein距离[6],已经证明在字符串相似性任务中是有效的。特别地,我们考虑两种类型的编辑成本:插入/删除成本(在另一事件之前或之后插入或删除事件的成本)和替换成本(用另一事件替换事件的成本)。对于插入/删除成本,我们通过EE元路径(紧跟另一个事件的事件之间的路径)使用基于PathSim的相似性,因为这个元路径捕获了一个事件在另一个事件之前或之后执行的可能性。对于替换成本,我们通过ERE(表示由同一资源执行的两个事件)和ET E(表示属于同一跟踪的事件)使用基于PathSim的相似性的组合,因为这些元路径捕获了两个事件的间接相似性。

与一般编辑距离类似,两条记录道之间的SeqPathSim由以下递推公式(方程式6.3)定义,表示为v_{mn}(x,y),或简写为v_{m,n}

7高维优化SeqPathSim

SeqPathSim利用PathSim捕获的节点之间丰富的语义关系和编辑距离的顺序相似性。它还继承了基于编辑距离的度量的性能缺点。回想一下,一般编辑距离的复杂性是O(m*n),其中m和n是被比较的两个序列的长度。此外,我们需要计算每一对痕迹之间的相似性。因此,使用SeqPathSim对通常具有高维性(例如,每个进程跟踪多达数百个事件导致m和n的高值)的真实世界跟踪进行聚类在计算上是昂贵的。

尽管维度数量很高,但我们注意到,比较过程跟踪并不需要在细粒度级别的事件级别表示跟踪。作为一个例子,请考虑图1中的贷款应用程序流程。在更高的抽象级别上,流程基本上包括三个主要步骤:接收应用程序、查看应用程序和通知决策。因此,图1中的流程模型只能使用图5中所示的三个维度进行抽象。在新的表示形式下(每个新维度都成为HIN中的新事件类型),仍然可以比较和区分流程跟踪,例如正在审查的贷款申请的跟踪与已经达到通知决策步骤的跟踪。最重要的是,由于维度的降低,SeqPathSim的新维度性能将得到提高。

用于降维的跟踪表示:在应用降维技术处理跟踪之前,为跟踪提供适当的数据表示非常重要。降维最常用的数据表示方法是基于向量空间模型,其中每个轨迹t表示为向量。每个维度s_{i}的值与事件的类型相关联,并且等于事件e_{i}在记录道t中的频率:。这种表示法捕捉到每个事件类型对记录道的“局部”重要性(通过f_{e_{i},t}),但不捕捉所有记录道中每个事件类型的“特异性”。以图1中的流程模型为例,由于事件“Receive loan application”出现在几乎所有的跟踪中(作为流程的入口点),因此它作为跟踪之间的区分因素变得不那么重要(即,它的特异性较低)。

基于文本挖掘中基于TF-IDF的文档表示[24],我们提出了一种新的过程跟踪数据表示方法,该方法既捕捉了每个事件的局部重要性,又捕捉到了对跟踪的特殊性。除了跟踪的事件频率外,我们还考虑了每个事件在所有跟踪中的流行性:。直观地说,一个大的n_{e_{i}}意味着事件e_{i}很流行,因此对一个跟踪显示出低的特异性。因此,跟踪向量s_{i}中每个维度的值基于跟踪事件频率f_{e_{i},t}(表示局部重要性)和反向事件流行度(表示特异性)的组合。我们提出了一种新的s_{i}计算方法,其计算公式如下:

将过程轨迹表示为向量后,输入轨迹集可以表示为大小为的大矩阵M,其中每个元素 是与第i个轨迹中的事件类型e_{j}相关联的值。接下来我们将展示如何对输入轨迹的矩阵M进行降维。

过程模型正则化轨迹降维:给定矩阵表示M,我们可以在M上应用非负矩阵分解(NMF)、主成分分析(PCA)或奇异值分解(SVD)等off-theshelf降维技术。这些技术的结果通常包括大小为的矩阵M'(其中是新维度的数目),表示投射到新维度上的原始轨迹;大小为的矩阵W,表示从旧维度到新维度的映射(即,W中的每一行都适用于事件在新维度上的分布向量)。

然而,现有技术的结果不能直接用于基于编辑距离的方法,如SeqPathSim。具体地说,虽然SeqPathSim要求输入记录道以新维度中事件序列的形式存在,但上述结果仅给出了从输入事件到新维度的“软”映射(即,以矩阵W的形式存在)。因此,有必要将W转换为原始事件到新维度的“硬”赋值。形式上,如果我们将κ新维表示为一组κ簇事件,1≤i≤κ,那么我们需要导出一对一映射函数,它将每个事件映射到中的一个簇。映射函数ρ的目标是最大化属于同一个簇的事件对之间的集体相似性集群

该问题可表示为具有以下目标函数的优化问题:

其中sim(e_{j},e_{k})e_{j}e_{k}在新维度中的相似性,并且可以使用现有的度量(例如余弦相似性或基于欧氏距离的相似性)来计算.

仅仅基于现有的降维技术的结果导出“硬”赋值,忽略了过程模型中事件之间关系关系的重要信息。通过在事件节点E的集合上对流程跟踪的异构图G=(V,E)进行投影,表示为,可以获得流程执行模型。由于流程模型捕获事件之间的后续关系(即流程模型中的边权重表示事件在跟踪中跟随另一事件的次数),因此它提供了对要分配给集群的事件的强指示。例如,经常相互跟踪的事件可能位于同一集群中。因此,我们建议在方程7.5中的目标函数中添加另一个成分,表示为△以考虑基于过程模型的正则化。特别是,△用于最大化过程执行模型中跟随一个或另一对事件对之间的集体相似性。找到最佳映射ρ的新目标函数如下:

其中w(e_{j},e_{k})是过程模型G_{E}e_{j}e_{k}之间的边的权重,λ是用户指定的参数,用于调整新维度(第一分量)上的统计相似性和基于过程模型(第二分量)的正则化之间的偏好。

方程7.6中的优化问题是集合划分问题的一个变种,为此类问题寻找可行解是NP困难的。因此,我们设计了一个贪婪算法:我们没有优化方程7.6中定义的全局目标,而是提出了方程7.7中定义的局部目标函数,其中事件e_{j}被分配给包含最接近e_{j}的事件的集群(即新维度)。

式中,e_{j}e_{k}之间通过元路径EE基于路径的相似性,用于说明过程模型中两个事件之间的顺序关系(即可视为局部正则化项,类似于方程7.6中∆的作用);sim'(e_{j},e_{k})是将统计相似性(即sim(e_{j},e_{k}))和序列相似性(即)结合起来的新事件之间的相似性度量。

算法1中概述的贪婪近似算法使用了一种自下而上的策略,类似于凝聚聚类算法,将原始事件分配给簇(即新维度)。首先,利用公式7.7计算了中所有事件之间基于PathSim的相似和相似矩阵S。接下来,算法将每个事件视为单个集群,并尝试依次合并或聚集彼此最近的事件对,直到所有集群合并到包含所有事件的单个集群中为止。此步骤创建层次结构H,其中每个叶节点都是事件,根节点是最后一次合并的单个集群。最后一步是在某个点上剪切层次结构,以获得所需的簇κ数量。虽然有很多标准[24]可以用来确定层次结构的切入点,但我们使用了一种简单而有效的方法,它基于找到最小相似阈值,使同一簇中的任意两个事件之间的距离不超过阈值,并且不超过κ簇。

8实验评价

在本节中,我们将使用跨不同业务流程域的多个真实世界和合成数据集演示我们的方法的有效性和效率。我们的实验是在运行Windows7的内存为16GB的Intel Core i7机器上进行的。

数据集:表1列出了关于数据集的详细属性,这些属性是公开的,范围从相对较小的维度到较大的维度。

BPIC'13数据集由代表沃尔沃IT事件和问题管理流程的日志组成。

接收数据集由表示匿名市政当局建筑许可证申请过程接收阶段执行记录的日志组成。

银行数据集由表示大型银行交易流程的综合生成的日志组成。

评估指标:如第4节所述,在本文中,我们使用流程特定的指标来评估流程跟踪聚类结果:加权平均一致性适合度(AvgFitness)和加权平均结构复杂度(AvgComplexity)。

给定一个聚类结果,使用启发式挖掘算法[19]为每个聚类生成一个过程模型,然后转换为Petri网模型[18]进行一致性分析。给定Petri网模型,我们使用ProM框架[22]中的两个公共可用插件进行适合度和结构复杂性分析:一致性检查器插件用于测量生成的流程模型的适合度,Petri网复杂性分析插件用于分析流程模型的结构复杂性。在计算每个聚类的适应度和复杂度得分后,最终得分将被计算为所有聚类的平均得分,并根据聚类的大小进行加权,如第4节所述。

跟踪相似性:我们评估以下方法的性能:

  • •ED:我们的基线方法是基于上下文感知编辑距离的聚类[1],其中编辑操作的成本来自连续事件的三角形。我们使用ProM框架中包含的ED的实现。
  • PS:第6节中描述的基于PathSim的方法。
  • SPS:SeqPathSim算法,如第6节所述。
  • DR-SPS:采用第7节所述尺寸缩减方法的SPS,λ=0.6。

元路径:我们在PS中用于跟踪间相似性的元路径是T ET、T EET和T ERET,它们的权重分别为0.2、0.5和0.3(这些权重是根据用户指导和仔细调整选择的)。

对于所有方法,在计算了每对记录道之间的相似度之后,在最后一步中使用层次聚类[7]作为聚类算法。

8.1一致性适合度比较

图6a显示了不同数据集的加权平均一致性适合度结果,其中聚类数k=4。图6b显示了接收数据集的加权平均一致性适合度结果,同时改变了聚类数k。其他数据集也观察到了类似的结果,但由于空间限制而被忽略。

结果表明,PS方法是目前唯一一种非编辑距离方法,与其他基于编辑距离的方法相比,性能较好,而且明显优于基线ED,验证了利用PathSim相似性捕获跟踪间相似性的有效性。DR-SPS虽然在尺寸缩减后应用于跟踪,但与SPS相比,仍然有良好的性能,而无尺寸缩减(在某些情况下甚至更好)。这很有趣,考虑到降维的主要目的是提高效率而不是有效性。这一结果可以解释为DR-SPS可以智能地将包含不同事件但在相同新维度(因此高度关联)的跟踪分组到同一个集群中。我们在下面的小节中评估了通过降维获得的效率。

我们提出的所有方法都优于基于基线编辑距离的方法ED。这些结果有助于确认将过程跟踪建模为HIN以及使用PathSim作为跟踪和事件之间的相似性度量的有效性。它还有助于验证将PathSim捕获的流程语义关系与统一度量(即SPS和DR-SPS)中编辑距离捕获的顺序关系相结合的好处。

8.2结构复杂性比较

表2显示了BPIC'13和银行数据集不同结构度量(异或连接/拆分、连接/拆分和控制流)的加权平均复杂性得分,其中聚类数k=4。表3显示了不同聚类数k的接收数据集的类似结果。

总体而言,结果表明,我们提出的方法通常优于基线,因为生成了一组简单的过程模型。在接收(跨不同集群数)和BPIC的13个数据集中,输出性能特别明确。对于银行数据集,尽管ED生成的集群具有最不复杂的流程模型,但差异并不显著,我们提出的方法优于基线,而不是其他评估指标(即一致性适应度和效率)。

8.3降维比较

在接下来的一组实验中,我们重点评估使用DR-SPS和SPS的有效性和效率。回想一下,DR-SPS使用降维方法,而SPS不使用降维方法.

在效率方面,图7显示了DR-SPS(其中DR-n表示具有n个维度的DR-SPS)和SPS在收据和银行数据集上的运行时间比较。正如预期的那样,DR-SPS在收据数据集(27维)和银行数据集(113维)上的速度分别高达9倍和100倍,大大优于SPS。

在有效性方面,表4显示了DR-SPS(具有不同维数)和SPS(其结果显示在括号中)之间的适合度和结构复杂性比较。结果表明,DR-SPS在大多数情况下(用粗体表示)在适应度和结构复杂性度量方面都优于SPS。这个结果是有趣的,并且有些令人惊讶,因为人们普遍认为基于编辑距离的方法的降维只会以牺牲效率为代价来提高效率。事实上,结果显示我们的降维DR-SPS方法达到了这两个目标。

9结论

本文将过程跟踪建模为一个异构信息网络,定义了一个相似度度量,该度量不仅利用了节点间丰富的语义关系,而且利用了每个跟踪中事件的顺序执行。我们的降维技术允许我们克服editdistance算法的计算可伸缩性缺点,同时显著地提供更好的质量结果。使用跨多个业务流程域的真实世界跟踪进行彻底的实验评估,验证并显示了我们的方法的有效性。

我们正在进行的研究是沿着两个维度进行的。首先,我们打算将这种方法扩展到其他领域,特别是在网络日志上应用我们的算法来发现异常行为(如恶意攻击)的集群。第二,我们寻求利用云计算平台中可用的资源,为业务用户提供一个交互式工具,他们可以使用这个工具来探索和理解自己的流程。这里的挑战是如何帮助用户从一个业务问题过渡到一个解决方案,而不会让用户有太多的选择或难以解释的结果。利用挖掘过程中的性能增益和简化,最终目标是拥有一个可应用于不同数据集的工具,并快速引导用户获得他们可以采取行动的结果,然后以连续的方式验证他们的决策。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值