1. 明确目的–以业务为核心
- 案例背景:有一份“淘宝母婴用品店的销售数据“,需要帮助商家实现盈利最大化
- 目标:确定产品销量和以下哪些因素有关:产品种类、用户年龄段、客户性别。确定它们之间的变化趋势,找出可以改善的点
2. 理解数据
- 商品购买记录表:表中包含7个字段,29972条数据![
字段名称 | 中文字段名称 |
---|---|
user_id | 用户id |
auction_id | 购买行为ID |
cat_id | 商品小类 |
cat1 | 商品大类 |
property | 商品属性 |
buy_mount | 购买数量 |
day | 购买时间 |
- 购买用户信息表:表中包含3个字段,953条数据.
字段名称 | 中文字段名称 |
---|---|
user_id | 用户id |
birthday | 出生日期 |
gender | 性别 |
3. 提出问题
- 哪些类别(细分)的商品比较热销,总销售量前五的产品是哪些类别?各自占比是多少?
- 不同种类商品的销售趋势是怎么样?增长还是下降?
- 商品对应的哪个年龄段而言较为畅销?
- 用户中的性别分布是怎么样的?商品购买数量和用户性别分布是否有关系?
- 哪些客户更具有购买力,更具有付费意愿?
4. 数据清洗
4.1. 选择子集
- 删除不需要的数据:商品购买记录表中–商品属性(property)列
4.2. 列名重命名
- 修改两个数据表格中的列名为中文
4.3. 数据类型转换
- 商品购买记录表购买时间列
-
使用分列–在第三步选择日期![
-
不能直接右键设置单元格格式ÿ
-