数据分析Part 1 描述统计分析

(一)描述数据常用的4个指标
1.平均值
计算简单,但是易受异常值、极端值的影响

2.四分位数
2.1中位数

1)将数字从小到达排序

2)中间位置:奇数即为中间的数,偶数为中间两个数的平均值

2.2四分位数

上界:数据中最大值

下界:数据中最小值

Q1下四分位数:下界到中位数的中点

Q2中位数

Q3上四分位数:上界到中位数的中点

2.3箱线图

中位数若离下四分位数较近,说明大部分数据集中在下端及在下四分位数和中位数之间

2.4异常值

识别异常值方法:Tukey‘s test

最小估计值:Q1-k(Q3-Q1)

最大估计值:Q3+k(Q3-Q1)

k=1.5中度异常

k=3极度异常

3.标准差
说明数据集的波动情况

波动大小=离散程度=变异性

方差、标准差

越小越稳定

标准差的单位和所以计算的数据单位相同

标准差能表示数据整体的波动,但是它有个缺点:如果两个数据差别比较大,那么就无法比较。

比如店铺A的销售额是1000万,店铺B的销售额是100万,两个店铺的标准差都是20万。如果说两个店铺的“波动幅度相同”,这是不对的。因为一般情况下,如果原始数据值较大,那么它的波动(标准差)也会比较大。这句话怎么理解呢?比如,20万对于1000万和100万的比例是不一样的,一个是五分之一,一个是五十分之一。

如何避免标准差这个缺点呢?

如果能用标准差除以数据集的平均值,就可以消除数据大小的差异。标准差除以平均值得到的值叫作变异系数。

所以,我们通常用变异系数来比较不同数据集的波动大小。

4.标准分
相对

标准分=(x1-μ)/σ

标准分代表某个数值距离平均值多少个标准差,>0大于平均值,<0小于平均值,=0等于平均值

5.总结
在这里插入图片描述
(二)数据集

1.熟悉数据

数据来自淘宝和天猫上购买婴儿用户

数据来源:

阿里巴巴天池

淘宝和天猫上购买婴儿用户

本数据集包括2个excel文件:

表中分类原本为英文,在上方加入一行中文。

表1购买商品(sample)sam_tianchi_mum_baby_trade_history.csv)
在这里插入图片描述

数据集共有29971条信息记录,共有7个字段,分别为:

user_id:用户id,不重复

auction_id:物品编号(item_id)

cat_id: 商品种类ID(商品二级分类,表示商品属于哪个类别)二级指标,如淘宝首页数码(一级指标)分类,其中手机,耳机,打印机。键盘等都是相应的二级指标

cat1: 商品种类ID(商品一级分类,表示商品属于哪个类别)一级指标,如淘宝首页母婴、数码、运动、家居、女人、男人、美食、美妆等分类。

property:商品属性(可以是大小、尺寸、品牌等属性值)

buy_mount:购买数量

day:购买时间(是个时间戳格式,可以通过excel将时间戳显示未日期格式)格式即年月日。

表2婴儿信息((sample)sam_tianchi_mum_baby.csv)

在这里插入图片描述
数据集共有953条信息记录,共有3个字段,分别为:

user_id:用户id,唯一且不重复

birthday:婴儿出生日期,格式为年月日。

gender:性别(0女性;1男性;2未知的性别)

2.从数据集中分析业务问题
2.1从数据集中获取描述统计信息

针对购买数量表和婴儿信息表,分别计算常用描述统计指标。

购买信息表可以计算购买数量的平均值、中位数、四分位数、标准差,画箱线图

婴儿信息表可以计算婴儿年龄的平均值、中位数、四分位数、标准差,画箱线图

2.2从数据集中分析业务问题

1.购买数量表分析某种分类下某种商品的购买数量,可以加上时间趋势,画出时间趋势图;分析某种属性、某种分类对购买数量的影响;

2.将两个表结合,根据每个用户婴儿的出生日期,和购买商品的日期,购买商品数量,分析时间趋势;分析婴儿性别与购买商品种类与商品属性之间的关系

本人知乎帐号Lxx

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值