天猫订单之数据分析与挖掘——数据预处理和频繁模式
0. 写在前面
- Windows:
Windows10
- Python:
Python3.9
本次案例项目主要是采用Pandas和Numpy对天猫订单数据集进行处理、挖掘、分类和聚类分析,最终利用数据可视化工具Matplotlib展示各地区在天猫平台的消费情况。
1. 数据预处理
1.1 多余字符的处理
可以较为明显观察到数据集存在一些数据的末尾有多余的逗号字符,考虑到多余的字符会导致数据读取出错,此处应当先删除行尾掉多余的字符。如下图所示:
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3tDnI7os-1682063907630)(assets/01.png)]](https://img-blog.csdnimg.cn/d383cb4578e6479892b54451d46744b4.png)
处理后的数据如下:
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nwrFtJHF-1682063907632)(assets/02.png)]](https://img-blog.csdnimg.cn/f9c19289c6df450e8f124bc414145fff.png)
1.2 日期属性值的处理
订单创建时间和订单付款时间两个属性都是日期类型&#