我正在帮助一个狗救助小组分析他们即将被收养的申请。所有应用程序都是通过在线系统输入的,每个应用程序都将获得一个自动生成的表单ID。然后将申请分配给不同的志愿者进行处理。
大多数信息都很简单,我可以使用熊猫轻松地进行处理。分析的一部分与每个应用程序的处理时间有关。这意味着从创建应用程序(表单状态为“已提交”)到采用狗的日期(表单状态为“已通过”)。当我导出表单数据时,状态会发生变化,并且一般注释会混合在一个名为“注释(内联)”的标题下。
这是一个示例的状态更改/注释的简短示例。
文本遵循一些基本模式。
一般评论:CURRENT_PERSON(名字)写于DATE:文字
更改志愿者:CURRENT_PERSON(名字)写于DATE:已将表格分配给NEW_PERSON(名字第一)
表单状态更改:CURRENT_PERSON(名字)写于DATE:状态从CURRENT_STATUS更改为NEW_STATUS
我是python(〜3mos)的新手。首先想到的是使用python和正则表达式解析文本,提取数据并将它们分为两组(一组用于一般注释,另一组用于状态更改)。由于我仍在学习中,这将需要一些时间,但似乎可行。最终结果将是这样。
可以多次分配相同的状态,所以我需要给他们一个数字。然后,我可以将处理时间计算为Adopted-01和Submitted-01之间的天数。
但是