一、任务目标
1、任务
总体目的——对账
本项目解决同时使用多个快递发货,部分隔离区域出现不同程度涨价等情形下,如何快速准确核对账单的问题。
1、在订单表中新增一列【运费差异核对】来表示订单运费实际有多少差异,结果为数值。
2、将整个核对过程包装为一个OrderCheck类,方便后续直接调用它进行数据核对。
二、数据形式
1、图像呈现
账单形式
邮寄费(不同公司)
2、文字描述
一个excel文件中有四个表,第一张是账单形式,后面是不同公司的计费方式
每个公司的信息不同(如送达地址的描述、包裹重量单位等),需要统一
三、分析步骤
1、导入数据
3.1.1存在问题
问题一:
由于原数据表中有空格,或最后有总计、数据源等不规则信息导致的,需要进行处理
问题二:
用describe()查看数值信息,发现只有邮资是纯数值,则需要对其他属性的数据进行数值转换
本数据源中,理应只有包裹重量和实际邮资是数值
但由于包裹重量的最后一行是单位(整个表最后的统计部分),不能被统计为数值
3.1.2解决方案
1、处理空行和空值
思路1:用loc定位删除空行
缺点:若新加入表,则行索引会改变,定位也就改变了
思路2:删除重复值
因为有三行空值,可先删除重复的空行
缺点:前面有数据的部分也许也会有重复值,容易导致数据缺失
思路3:统计每一行空值,判断需要删除的行
2、数据类型转换
3.1.3
语法扩展
2、数据处理
3.2.1计算运费
方法一:for循环算每一行
分析:根据地区、快递公司、重量计算运费
问题1:地区不统一
每个表的“地区”描述形式不一样
<