电商数据分析
一.数据描述
| 订单顺序编号 | 订单号 | 用户名 | 商品编号 | 订单金额 | 付款金额 |
|---|
二.分析角度
1.整体角度----探索每个月有效的订单,以及销售额
2.个人角度----统计第一次购买的数量,以及最新时间购买的人数
3.用户画像----使用RFM模型对用户进行分类
三.数据清洗
pd.set_option('display.unicode.ambiguous_as_wide', True)
pd.set_option('display.unicode.east_asian_width', True)
plt.rcParams['font.family'] = 'Microsoft YaHei'
plt.rcParams['axes.unicode_minus'] = False
首先设置如上,前两行是让字段整体输出,后两行是使画图显示中文
1.处理缺失值
# 01 空值处理
print(data.isnull().sum())
data['渠道编号'].fillna(data['渠道编号'].mode(), inplace=True)
print("----------------------")
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4JM0PXUS-1686745656368)(C:\Users\86170\AppData\Roaming\Typora\typora-user-images\image-20230614175754731.png)]](https://i-blog.csdnimg.cn/blog_migrate/3e41e1e8abc72660c684e090c3c21aba.png)
空值字段只有渠道的编号,数量较少,可以采用删除,本次采用使用众数填充的方法处理空值。
2.重复值
# 02 重复值处理
print("数据的重复值个数为", data.duplicated().sum())

无重复值。
3.异常值
本次数据主要是2021年的数据,对于其他时间段的数据进行删除,并且检查付款金额字段数据
print("数据异常值数据\n", data[data['付款金额'] < 0]['付款金额'])
data.drop(data[data['付款金额'] < 0]['付款金额'].index, inplace=True)
# 增加下日期列与月份
data['订单日期'] = pd.to_datetime(data['付款时间'], format='%Y-%m-%d').dt.date
data['月份'] = pd.to_datetime(data['订单日期']
电商数据分析:揭示销售趋势与用户行为

最低0.47元/天 解锁文章
975

被折叠的 条评论
为什么被折叠?



