这一节的内容是数据预处理(excel)和简单的可视化。
目录
1. 数据预处理
(1)分列
这里的操作比较简单,重点记录方法。
①对数据进行分列后,可以看列和来判断是否存在脏数据。比如“张三三 & Two 贴纸 每包 12 个”的理想情况应该是“张三三 & Two”为公司名称,“贴纸”为产品名称,“每包 12 个”为计量单位,一共三列,但是用空格分列的时候发现有7列。
②如果存在脏数据,用筛选功能查看原因。比如上面的例子,看了一部分数据后发现模式比较固定,都是"每包”和“个”这类单位前后有空格,那么用excel替换功能去掉即可。至于公司名称,可以把有问题的列筛选复制出来,去重查看有多少家公司,少的话可以手动替换空格。
【备注】这里的思路和之前写代码的思路一样,就是先快速做一个初版(在这里就是直接按照空格分类),然后查找异常原因逐个改进(在这里就是筛选异常,总结范式,排除异常)
(2)数据清洗
筛选、排序(比如日期是否在指定范围、数字是否在合理范围)、去重