简单的数据清洗

本文介绍了在数据清洗过程中遇到的产品名称、申报人和申报单位的规范化问题。针对产品名称,通过split方法去除特定前缀;对于申报人和申报单位的不统一格式,采用正则表达式进行匹配和切割,简化信息。虽然未处理特殊情况,但整体思路简洁实用。
摘要由CSDN通过智能技术生成

初始数据:
在这里插入图片描述

数据要求如下:
在这里插入图片描述
1.产品名称的类型是1182_产品测试-张三-0622,然后开始以为直接用正则匹配就完事了,后来得知要去掉_前面的就ok,那直接split就完事了。
2.申报人和申报单位,这两列真的是鱼龙混杂,大概的格式有以下几种:

张三第1申报人 张三第一申报人 张三第申报人 且有顺序打乱的,以及多个重复位置的申报人,如4个第二申报人(这里处理并没有处理这种少量数据,这个直接后期该就OK)

申报单位和申报人大概的情况是一样的,所以运用一个函数就能解决。

def clean_type(type, data):
    
    num_list = ['1', '2', '3', '4', '5', '一', '二', '三', '四', '五', '']

    list = data.split(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值