一、分析目的
本文将通过对小红书销售表3万余条数据的分析,找到影响销售额的因素。
二、理解数据
先看下数据集字段基本信息
import pandas as pd
import numpy as np
#导入数据
rdDf=pd.read_csv("redbook.csv")
rdDf.info()gender\age\engaged_last_30存在缺失值,占比40%,缺失值过多不能直接删除
三、数据预处理
缺失值处理
#数值型缺失值处理
#用age的均值填充缺失值
rdDf['age']=rdDf['age'].fillna(rdDf.age.mean())
#类别型缺失值处理
#用'unknown'填充性别及活动
rdDf['gender']=rdDf['gender'].fillna('0')
rdDf['engaged_last_30']=rdDf['engaged_last_30'].fillna('unknown')
四、数据分析与可视化
分析方法:采用多维度拆解法,群组分析法,对比分析法
1、单一变量分析单笔销售额主要分布在1000以内,在500以下更为集中,平均值消费金额是334。
有将近七成的用户是两年以上的老