PM4PY - Handling Event Data

摘要:导入导出CSV文件、事件日志数据类型转换

随笔

trace(轨迹):从头部到尾部走一次路径就算一次trace
Variants(变体):不同的路径为一个变体
process execution(流程执行)
stochastic(随机)
parameter(参数)
i.e.=that is / in other,用来进一步解释前面所表明的观点。i.e. 是拉丁语 id est 的缩写,意思是“那就是说、换句话说”,相当于that is / in other,用来进一步解释前面所表明的观点。
e.g. 是拉丁语 exempli gratia 的缩写,意思是“举个例子,比如”,等同于for example、 for the sake of example、such as

读文档先一整句看下来把握句子大意,再去翻译不认识的单词。

导入CSV文件

先用pandas读取csv文件为dataframe对象
再用pm4py.objects.conversion包将dataframe文件转换为正确类型

在这里插入图片描述

示例代码中,将csv文件转为pm4py内部的event data类型
(示例代码在很多情况下都不能直接工作。原因:有许多参数需要我们去设置 ,在convertor中CASE_ID_KEY默认值为’case:concept:name’,因此示例代码中csv文件值至少要有’case:concept:name’列)

import pandas as pd
from pm4py.objects.log.util import dataframe_utils
from pm4py.objects.conversion.log import converter as log_converter

log_csv = pd.read_csv('<path_to_csv_file.csv>', sep=',')
log_csv = dataframe_utils.convert_timestamp_columns_in_df(log_csv)
log_csv = log_csv.sort_values('<timestamp_column>')
event_log = log_converter.apply(log_csv)

正确转换示例如下:
将dataframe的rename修改clientID列为case:clientID。因为转换参数parameter的CASE_ATTRIBUTE_PREFIX(CASE属性字首)默认为"case:"。CASE_ID_KEY指定哪列来标识区分case。

import pandas as pd
from pm4py.objects.conversion.log import converter as log_converter

log_csv = pd.read_csv('<path_to_csv_file.csv>', sep=',')
log_csv.rename(columns={'clientID': 'case:clientID'}, inplace=True)
parameters = {log_converter.Variants.TO_EVENT_LOG.value.Parameters.CASE_ID_KEY: 'case'}
event_log = log_converter.apply(log_csv, parameters=parameters, variant=log_converter.Variants.TO_EVENT_LOG)

转换EVENT DATA

pm4py.objects.convertion.log.converter是用来对事件日志(event logs)进行转换的。我们可以在Event Log, Event Stream 和 Data Frame 类型之间进行转换。

converter.apply(用法参考上面示例代码)变体与参数:
在这里插入图片描述

导出日志成CSV文件

导出event log(事件日志)为CSV文件。首先将event log转换成dataframe,再用pandas.to_csv生成csv文件。

import pandas as pd
from pm4py.objects.conversion.log import converter as log_converter
dataframe = log_converter.apply(log, variant=log_converter.Variants.TO_DATA_FRAME)
dataframe.to_csv('<path_to_csv_file.csv>')

周任务

  1. 找到生成的trace最大能多少?32G内存最大50万为宜
  2. 根据生成树的参数控制流程树的结构?见Process Tree一文

*若对本文有疑问(例如:笔记中知识点或表达有误),欢迎指出,共同学习进步。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值