![29398dfe413db8c1048165b102eb186d.png](https://i-blog.csdnimg.cn/blog_migrate/5cab8b9da4c460500128f443fd460bbd.jpeg)
本次数据来源于
知乎 - 安全中心tianchi.aliyun.com1.提出问题
购买商品的数量与季节的关系-----总销量与时间的数据透视表
哪一类商品最受欢迎,哪一类商品销量最低-----各类商品销量变化
性别以及年龄对购买数量的关系
2.理解数据
数据字段主要包括:用户ID、物品ID、商品一级分类,二级分类、商品属性、购买时间、购买数量、婴儿性别、婴儿年龄组成。
3.数据清洗
- 首先,为了方便操作,将字段名称更改为中文。
- 其次,选择子集。将不太重要的列进行隐藏。例如,本次分析中商品属性列进行隐藏。
- 查找是否有缺失值并进行完善。由于单击每一列右下显示的计数值都相同,故本次数据很完整不需要补齐。
- 删除重复值。由于本次数据的购买时间没有精确到分钟,会存在用户在同一天购买了相同数量相同商品的情况,故不进行重复值的删除。
- 数据排序 将购买时间按照升序进行处理。
- 异常值处理 经过筛选表2中有27个未知的性别,将其删除。
4.数据分析 & 构建模型
- 购买商品的数量与季节的关系-----总销量与时间的数据透视表
![f6a72ef82a9b12c10f2672bc6ee4a862.png](https://i-blog.csdnimg.cn/blog_migrate/b70d2c97ee27356b56e8a4a6fc0729f5.jpeg)
上图可以看出购买商品与季节的关系,再数据较全的14,15年都可以看出销量排名分别为四三二一,秋冬季节的销量更好。
![c4de801c9d22f5e05d4421444ae0e885.png](https://i-blog.csdnimg.cn/blog_migrate/d902016ba6b811df5f0d2082c40b527b.jpeg)
若对年和月份进行分组,可看到11月销量突出,推测与双十一活动有关。
2. 哪一类商品最受欢迎,哪一类商品销量最低-----各类商品销量变化
![b2ad36fa0eb3df27551f22d7ef8e9e0d.png](https://i-blog.csdnimg.cn/blog_migrate/326c071b90f04601236f01536413a005.jpeg)
在一级分类中进行降序排列,可以看出分类名为28的商品销量最好,122650008的商品销量最差。
![1a4fc9a69822e49c16819718088a58ec.png](https://i-blog.csdnimg.cn/blog_migrate/6aceb46077835c748d8316a7f6138ee9.jpeg)
细分到二级分类中,可以看出50011993的商品销量最好。
3. 性别以及年龄对购买数量的关系
使用vlookup函数从表一中获取购买数量以及购买时间,新建购买年龄列(购买时间-出生日期),并将其进行按年龄由大到小进行排序,删除年龄过大的,其可能为顾客报错导致的异常值。
![d1bc702eb9ffa7e2502f2d1428eff992.png](https://i-blog.csdnimg.cn/blog_migrate/a4438791c3a9ae9accc4642a54f69217.jpeg)
![ef7425c97130ece7be99721033b61159.png](https://i-blog.csdnimg.cn/blog_migrate/ee231aec774dffe2490c920b324e615e.jpeg)
从上图可以看出,女性儿童的家长购买的数量普遍大于男性,并在1岁时达到顶峰,男童的家长在0岁时购买数量达到顶峰。