1. 项目背景
某电商商城随着业务量的发展,积累了大量的用户手机销售订单数据。决策层希望能够通过对这些数据的分析了解更多的用户信息及用户的分布,从而 可以指导下一年的市场营销方案以及更加精准的定位市场,进行广告投放。
2. 数据概况
2.1. 加载数据
# 加载数据
data = pd.read_excel("./data/Phone.xlsx")
data.head()
2.2. 数据说明
数据时间从 2017.01.01至2019.03.31 共41800 条
字段 | 样例 | 字段描述 |
---|---|---|
订单号 | 20180301004758 | 订单的唯一记录号 |
订单日期 | 2020/1/14 | 购买日期 |
地区名字 | 中南地区 | 收件人地区 |
省份名字 | 浙江省 | 收件人省份 |
城市名字 | 舟山市 | 收件人城市 |
品牌 | 三星 | 购买手机品牌 |
型号 | Galaxy A50s | 购买手机型号 |
运行内存 | 6G | 手机运行内存 |
机身内存 | 64G | 手机机身内存 |
数量 | 2 | 该订单购买手机数量 |
用户名 | hICxjenVeM | 该用户昵称 |
用户姓名 | 陈盼妙 | 用户姓名 |
年龄 | 31 | 用户年龄 |
性别 | 女 | 用户性别 |
手机号 | 13820844520 | 用户手机号 |
价格 | 1869 | 手机单价 |
销售额 | 9345 | 该订单销售额 |
3. 数据清洗与整理
3.1. 数据类型转换
# 订单号、手机号码转换为字符串
data['订单号']=data['订单号'].astype(str)
data['手机号']=data['手机号'].astype(str)
data = data.drop(['年','月','年龄段'], axis=1)
3.2. 空值和重复值
print(data.isnull().sum())
print(data.duplicated().sum())
无空值,无重复值
3.3. 新增列
data.insert(loc=data.columns.get_loc('订单日期') + 1, column='年