python数据清洗是什么意思-Python基本的数据清洗

接触Python两年多了,还从来没有独立用Python完成一个项目,说来惭愧。最近因为工作需要,用Excel和oracle整理数据貌似不可行了,于是转向Python,理所当然的踩了很多坑,一一记录下来,避免以后再次入坑,毕竟不常用,好了伤疤就会忘了疼···

业务场景:

领导拿来几个Excel,共150W条保险数据,需要按照特定规则筛选出满足条件的数据。

字段:业务机构、保单号、案件号、被保险人、代码1、标的车号、VIN码、驾驶员、电话、出险时间、出险经过、维修企业、定损金额、三者车号、三者VIN、三者驾驶员、代码2、三者维修企业、查勘定损人员;

150W条数据没有唯一标识字段:同一个案件号对应一个标的车号、0-多个三者车号,一个标的车号对应一个或多个保单号,所以需要通过标的车号、保单号、报案号三个字段唯一确定一条理赔记录。

筛选规则:

电话频率大于等于3次(1年内);车架号(标的及三者大于等于3次(1年内;驾驶员姓名(标的及三者)大于等于3次(1年内),标的与三者维修单位为同一修配厂的;同一车号或是车架号在10日内出险两次的;出险时间在21:00~6:00的案件,做风险标识。

给到的数据,有以下几个问题:

部分记录数据不完整,整体缺失率较低

部分字段信息录入错误,比如,电话字段中出现字符、时间字段中出现11位数字(疑似电话信息)

有重复数据

Excel数据表列名不一致

问题总结:

这就是一个简单的数据筛选工作!

但是刚好工作不忙,刚好也想拿数据练练手,于是就开始操练起来了~

动手之前,要通过各种途径对数据进行全方位的了解,否则,浪费时间!

通过向数据来源方询问变量之间的关系、通过常识判断各变量的取值特性、通过探索性分析了解各变量的缺失/取值情况、结果导向分析数据清洗过程中可能会遇到的问题。

问题分解:

数据存储在多个Excel表格中,将这些数据读到一个变量中

按筛选条件整理数据

输出筛选数据

代码部分,我要放到另一篇文章里面~

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值