第四讲-流程挖掘(Process Mining)学习日志之数据获取

流程挖掘:数据获取与事件日志处理详解
本文详细阐述了流程挖掘中的关键环节,如数据源的抽取、转换和装载,事件日志的结构、XES文件的特性以及在实际应用中的挑战,特别关注了非扁平业务过程实例中的数据整合和视图选择。

流程挖掘离不开有效的事件日志,事件日志是多种多样的,比如数据库、文本文件、消息日志、事务日志、ERP系统和文件系统等。同时在整合和获取数据的过程中,语义和语法扮演着重要的角色。因此本章学习我打算从数据源、事件日志、日志语法、实例学习的几个角度进行学习,参考的教材是Process Mining。

4.1数据源

数据源可以是简单的文本文件、Excel表格、事务日志或者数据库表等。其实所有数据往往并不来自于单一的结构良好的数据源,而是分布在不通过的数据源当中。针对跨部门的过程挖掘,可以通过监听消息交换,记录读写活动来捕获事件。

“抽取、转换、装载”的步骤:

  1. 外部数据源抽取数据;
  2. 根据业务目标进行数据转换(在保证预定义的质量水平的前提下进行语义和语法上的处理);
  3. 将数据加载到目标系统,如数据仓库或者关系型数据库中;

数据挖掘通常情况下需要使用顺序的信息。

4.2 事件日志

下表描述了一段用于过程挖掘的事件日志中的信息。

案例:日志中的每个事件都需要对应到一个过程实例当中,即过程的一次执行。例如下标的案例1;
事件:指如register request、check ticket、reject等。

过程挖掘模型,通常都会将过程设计成为一系列活动的集合,而这些活动描述了一个实例的生命周期。因此下表中的案例id活动项都是必须的。并且案例中的事件还必须是有时间顺序的。如果日志中不包含事件顺序信息,则无法发现过程模型中的依赖关系。

表4-1 某事件日志的一个片段:每一行对应一个事件

事件日志的树形结构

事件日志的结构

  • 过程是由案例组成的。
  • 案例是由事件组成的,且每一个事件仅属于一个案例。
  • 案例中事件是有序的。
  • 事件具有属性,典型的属性包括活动、时间戳、成本和资源。

4.3 XES

需要知道的几个标准与标记语言:
MXML:Mining eXtensible Markup Language,挖掘可扩展标记语言。基于XML语法。有一套存储时间戳,资源和事务类型的标准标记。可进行自定义扩展,例如SA-MXML(Semantically Annotated Mining eXtensible Markup Language,语义注释的面向挖掘的可扩展标记语言)是被ProM框架使用的MXML格式的语义注释版本,里面包含日志中的元素

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值