Series + DataFrame
一、背景
接着上篇文章,现在通过某些渠道拿到了事故数据,但是存在几个问题。
如上图所示,分别有三个数据文件:data_ms、data_reason、reason_type
三个文件的字段如下:
如上述三表,第一个表是案情描述-编号、第二个表是编号-事故原因描述、第三个表是事故原因描述-事故原因新类别。
因为存在不匹配的问题,就需要进行预处理,将已有的案情描述-编号表中的数据在二表中查询匹配并找到对应的事故原因描述,并再将对应的事故原因描述在三表中查询匹配并找到对应的事故原因新类别。
上述三表是已经简单的用excel删除掉许多无用字段后整理的初版,因为不知道excle怎么处理多表互匹配,所有就有了此文,利用python的pandas 和numpy进行操作,也巩固了一下库的调用。
二、正文
首先导入需要用到的numpy、pandas包
import numpy as np
import pandas as pd
读入三个表的数据
data_ms = pd.read_excel('./data_ms.xls')
data_reason =