首先先明确一下对于该数据的分析流程
明确目的=》理解数据=》提出问题=》数据清洗=》描述性统计=》数据可视化=》总结分析
目录
一、明确目的
首先先了解一下数据集的基本情况
案例背景:这是一份淘宝母婴用品店的销售数据,需要帮助商家进行商品的最优选择(该数据集来自阿里天池)
目标:找出产品种类、时间、客户性别的变化对销售的影响
二、理解数据(字段)
数据集一共有两张表,一张是购买用户信息表,一张是商品购买记录表
(为啥要多复制一份?这是防止自己操作失误,导致的数据混乱甚至是删除,建立的一份保障)
首先先看商品购买记录表(7个字段)
用户ID:具有唯一性可识别,可作为主键
购买行为ID:购买行为的唯一编号
商品大类、小类、属性(无关字段)、购买数量、购买时间,这些字段应该都知道它的意思
再看一下用户信息表(3个字段)
需要特别强调一下出生日期是指婴儿的出生日期,性别也是指婴儿的性别
三、提出问题(分析重点)
1.哪些类别比较热销,总销量前5个占比
2.不同种类的商品销售趋势怎么样?
3.商品对于哪个年龄而言最热销
4.用户购买性别购买占比分布
<