通过相关渠道,搜集得到2013年某网购平台的全年数据,现将对其进行清洗,为下一步建模与分析做准备。
导入模块,展示数据
import pandas as pd
import numpy as np
data = pd.read_csv(r'C:\Users\admin\Desktop\文件汇总\电商数据分析\abnormal_orders.txt')
data.head()
![](https://img-blog.csdnimg.cn/img_convert/00409103f9fa291222d3646d4d1e5ba4.png)
![](https://img-blog.csdnimg.cn/img_convert/c4579e90e29e58a478367d09ed616ad5.png)
data.shape #查看样本数、特征数
#(134190, 14)
data.columns = ['订单id','下单日期','下单时间','商品一级类别','商品所属渠道','商品id','品牌','订单金额','商品销售数量','订单渠道','支付方式','下单用户id','城市','异常']
#更换列名为中文
标签搜索
(data['异常'] == 1).sum()
#28457
(data['异常'] == 1).sum()/data.shape[0]
#0.2120649824875177
可看出:样本存在不均衡,但程度较轻
下单时间
data['下单日期'].value_counts()