mysql 分列_分别使用Excel、MySQL和Python进行数据分析

写在前面

1、分析背景

本文所分析的数据,来源于阿里云天池;

数据来源:Baby Goods Info Data-数据集-阿里云天池

数据说明:数据集中包含两个CSV文件,分别为:购买商品的信息 和 婴儿信息。为了方便讲述,先将表名重命名,如下:

表1:(sample)sam_tianchi_mum_baby.csv;重命名为:baby.csv

表2:(sample)sam_tianchi_mum_baby_trade_history.csv;重命名为:baby_trade_history.csv

以上两个表中,主要涵盖的数据字段以及含义,如下所述:

  • user_id:用户id,用户登录时的账户名称;
  • auction_id:购买行为编号,用户购买行为的唯一识别编号;
  • cat_id:商品种类ID,购买商品的种类;
  • cat1:商品属于哪个类别,商品类别;
  • property:商品属性,商品的基本属性;
  • buy_mount:购买数量;
  • day:购买时间;
  • birthday:出生日期,婴儿的出生日期;
  • gender:性别(0 男性;1 女性)。

2、分析目的

分析近年来各类商品的销售情况,为运营工作提供参考依据,旨在提高用户黏性,提高销量。

3、分析思路

a、销量时间变化的规律是怎样的?

b、婴儿性别销量的影响是怎样的?

c、婴儿年龄销量的影响是怎样的?

为了分别使用3中工具进行分析,故:数据清洗/处理、分析内容等均放在后面各个工具环节进行!

接下来,分别使用Excel、MySQL和Python进行数据分析!主要用来提取数据、清洗数据、可视化等!

第一部分 Excel

1、数据清洗

目标:主要处理 异常值缺失值

为了方便查看,先将表1 和 表2 中的字段名,全部替换为对应的中文字段名!

数据清洗的详细步骤,请参照之前的文章:

Dima:第二章 手把手教你使用Excel进行数据分析​zhuanlan.zhihu.com
Dima:第四章 商业分析方法之婴儿用品实例分析(四)​zhuanlan.zhihu.com

1.1 清洗要点:

表1:baby.csv中

- 删除出生日期为 “1984-6-16” 的。

- 性别为“2”的,共有26个。按照现有男女比例为438:489,进行等比例替换。其中,14个替换为 “0” ,12个替换为 “1”。

- 使用 if 函数。将 0 替换为“男”,1 替换为 “女”。

清洗完成后,婴儿信息表中,共有 952 条记录。其中,男婴:502条记录,女婴:450条记录。

表2:baby_trade_history.csv

- 将 表1 合并到 表2 中,用 vlookup 函数。

- 再增加一个列名为 “年龄”,利用datedif 函数(提前需要对日期型数据进行分列处理,并设置格式),将 “出生日期” 和 “购买日期” 做差。出现 143 处 “#NUM!”,原因:购买产品的时间,婴儿还未出生。故:将此全部替换为 0。

18f9a9120462204cb160927cf93f5af8.png
合并处理后,部分截图

- 对 “购买数量”字段进行处理:

962ad53e1877f584a97bc08945601562.png
步骤1

2dc52f5e376430fbb27cb13df6318915.png
步骤2

结果如下:

a8b05685ad96d78a0599e4bfd259a501.png
购买数量 - 描述统计分析结果

从购买数据可以发现,平均购买量为2.5,这里最大购买数量高达10000,由此,可以看出:购买数据中存在异常数据。

这里的处理方法:将超过平均值3倍标准差的异常数据进行剔除。平均值为2.5,标准差为63,剔除购买数量大于191.5的数据(计算公式:2.5+63*3=191.5)。

表2 中,共有 31 条订单,其购买数量大于 191.5,全部予以删除。

至此,清洗工作全部完成,表2 中,有效订单为 29940 条。

2、分析内容

2.1 销量随时间变化的规律

透视数据表,绘图。初步可得出以下结论:

假设1:2015年的销量出现了断崖式下跌。

895528bf1a101dbbd3fc7c88c7379774.png

剖析:2015年销量下降的结论,是对比其他以前年份而得出的。使用对比视角,就要确保对比是可比的。就应该考虑三个部分:对比的时间、空间、数量要一致

查看原始数据集,可以发现,数据集收集到了从 2012年7月2号 到 2015年2月5号 的数据信息。由此可见,对比的时间不一致,根本无法得出2015年的销量出现断崖式下跌的。故假设结论1 是不成立的!

我们进一步的对每一年的1,2月份的购买数量进行对比,进一步发掘2015年的1,2月的购买数量是否真的出现了下降。通过对比分析可知,2015年1、2月的购买数量相比较2013以及2014年并没有大幅的下降。

2aaf523003835cf6ebcbf038beb1b37c.png
对比每年1、2月销量数据

结论1:2015年销量下跌,是由于数据集不完整造成的!

注意:只有在对比可以的情况下,才需要进一步站在用户、产品等角度去深入探索销量下降的原因。

假设2:四季度的销量猛增,是由促销活动和爆款产品带来的。

将时间粒度,切换到季度来看。可以发现,三四季度的销量发生了上涨。此时,我们需要思考,第四季度销量全年较高的原因是什么?

9aa16bebaed83f72647da5fbb4c77e25.png
其实,此处为了对比可以,严格来说,应该剔除不完
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值