初始数据:
数据要求如下:
1.产品名称的类型是1182_产品测试-张三-0622,然后开始以为直接用正则匹配就完事了,后来得知要去掉_前面的就ok,那直接split就完事了。
2.申报人和申报单位,这两列真的是鱼龙混杂,大概的格式有以下几种:
张三第1申报人 张三第一申报人 张三第申报人 且有顺序打乱的,以及多个重复位置的申报人,如4个第二申报人(这里处理并没有处理这种少量数据,这个直接后期该就OK)
申报单位和申报人大概的情况是一样的,所以运用一个函数就能解决。
def clean_type(type, data):
num_list = ['1', '2', '3', '4', '5', '一', '二', '三', '四', '五', '']
list = data.split(