相对于拟合度和精确度,泛化度的关注比较少,但是也有一些度量指标被提出,下面将概述这几种泛化度指标。
1.方法概述
基于对齐的概率度量[1]与基于对齐的适应度和基于对齐的精度的工作相关,并试图使用贝叶斯统计来估计当前模型可以再现新的未观察案例的概率。
[1] W.M.P. Van der Aalst , A. Adriansyah , B. van Dongen , Replaying history on pro-
cess models for conformance checking and performance analysis, Wiley Inter-
discip. Rev. 2 (2) (2012) 182–192 .
使用频率度量[2]是为流程树定义的泛化度量,通过查看流程树中的执行频率来估计泛化。当流程树的某些部分不频繁时,该树被视为过度拟合,因此具有较低的泛化能力。
[2] J.C.A.M. Buijs , Flexible Evolutionary Algorithms for Mining Structured Process
Models, Technische Universiteit Eindhoven, Eindhoven, 2014 Ph.D. thesis .
与负面事件相关的文献中引入了行为泛化度量[3]。在这种情况下,负面事件的出现可以用来衡量普遍性,因为它提供了模型应该能够再现哪些事件和不应该再现哪些事件的区分。特别是,这里的概括定义为一方面允许的概括数量与另一方面概括总数之间的比率。一般化的集合被定义为既没有被观察到也没有被分类为否定的事件。允许的概括是模型允许的概括的子集。允许的泛化越多,泛化度量就越高。
[3] S.K.L.M. vanden Broucke , J. De Weerdt , J. Vanthienen , B. Baesens , Determining
process model precision and generalization with weighted artificial negative
events, Knowl. Data Eng. IEEE Trans. 26 (8) (2014b) 1877–1889
2.工具实现
该方法已作为插件在ProM6 中实现,插件名为“Measure Precision/Generalization”。
参考文献:
Van der Aalst W, Adriansyah A, van Dongen B. Replaying history on process models for conformance checking and performance analysis[J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2012, 2(2): 182-192.