利用Pandas、Numpy对多数据表之间相互匹配并创建交通数据集

最新推荐文章于 2024-06-21 11:09:59 发布

PzySeere

最新推荐文章于 2024-06-21 11:09:59 发布

阅读量1.5k

点赞数 1

分类专栏：自然语言处理文章标签： pandas numpy nlp data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36785187/article/details/88687468

版权

本文介绍如何利用Python的Pandas和Numpy库处理多个数据表之间的匹配问题，以创建交通数据集。首先，通过读取和预处理包含事故描述、原因描述和原因类别的数据文件，然后进行表间匹配，最终得到匹配后的数据。尽管在匹配过程中遇到数据类型转换问题，但成功完成了2399行的匹配。后续工作涉及数据分布的调整，以适应多分类建模的需求，可能采用TextRCNN模型进行实验。

摘要由CSDN通过智能技术生成

Series + DataFrame

一、背景

接着上篇文章，现在通过某些渠道拿到了事故数据，但是存在几个问题。

如上图所示，分别有三个数据文件：data_ms、data_reason、reason_type

三个文件的字段如下：

如上述三表，第一个表是案情描述-编号、第二个表是编号-事故原因描述、第三个表是事故原因描述-事故原因新类别。

因为存在不匹配的问题，就需要进行预处理，将已有的案情描述-编号表中的数据在二表中查询匹配并找到对应的事故原因描述，并再将对应的事故原因描述在三表中查询匹配并找到对应的事故原因新类别。

上述三表是已经简单的用excel删除掉许多无用字段后整理的初版，因为不知道excle怎么处理多表互匹配，所有就有了此文，利用python的pandas 和numpy进行操作，也巩固了一下库的调用。

二、正文

首先导入需要用到的numpy、pandas包

import numpy as np
import pandas as pd

读入三个表的数据

data_ms = pd.read_excel('./data_ms.xls')
data_reason =

最低0.47元/天解锁文章

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。