.describe() python_用Python做描述统计

一直用零零散散的时间自学Python,之前一直都在模仿书上的整理好的程序来做,今天准备自己动手

从阿里巴巴天池下载的数据,只有用户ID,购买ID,购买时间,购买数量,商品属性,还有一张表更简单,就只有用户ID,出生日期和性别

首先,Python描述统计分析,describe函数中的include设置为all意思就是描述所有数值型数据和离散型数据,如果不设置,默认就是只描述数值型数据

import 

结果用户编号、商品编号还有日期都被解读成数值型数据了,所以重新来过吧

先把用户编号,商品编号,商品类别转化为文本型数据,再把日期数据转化为日期,代码如下

sales_data=pd.read_csv('sale_data.csv',parse_dates=['day'],
                       dtype={'user_id':str,'auction_id':str,
                              'cat_id':str,'cat1':str})
sales_data.describe(include='all')

结果如下

v2-90b311099dcd45b58467908fa753930b_b.jpg

本来是想对数据做一下RFM分析的,重复最多的用户编号只有4次,放弃这个想法;

然后之后的项目编号、分类编号还有根分类可以发现客户购买的产品还是挺分散的;

之后的购买数量也是说明了这个问题,最大值为10000,这个很可能是异常值,大部分客户都是买的1件商品

从购买日期上看14年的双十一这天重复出现了454次,看来双十一这个活动还是挺影响销量的

下一篇讲数据可视化想从购买时间和购买数量入手,说说这部分数据对库存的影响

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值