一直用零零散散的时间自学Python,之前一直都在模仿书上的整理好的程序来做,今天准备自己动手
从阿里巴巴天池下载的数据,只有用户ID,购买ID,购买时间,购买数量,商品属性,还有一张表更简单,就只有用户ID,出生日期和性别
首先,Python描述统计分析,describe函数中的include设置为all意思就是描述所有数值型数据和离散型数据,如果不设置,默认就是只描述数值型数据
import
结果用户编号、商品编号还有日期都被解读成数值型数据了,所以重新来过吧
先把用户编号,商品编号,商品类别转化为文本型数据,再把日期数据转化为日期,代码如下
sales_data=pd.read_csv('sale_data.csv',parse_dates=['day'],
dtype={'user_id':str,'auction_id':str,
'cat_id':str,'cat1':str})
sales_data.describe(include='all')
结果如下
本来是想对数据做一下RFM分析的,重复最多的用户编号只有4次,放弃这个想法;
然后之后的项目编号、分类编号还有根分类可以发现客户购买的产品还是挺分散的;
之后的购买数量也是说明了这个问题,最大值为10000,这个很可能是异常值,大部分客户都是买的1件商品
从购买日期上看14年的双十一这天重复出现了454次,看来双十一这个活动还是挺影响销量的
下一篇讲数据可视化想从购买时间和购买数量入手,说说这部分数据对库存的影响