数据分析Part 1 描述统计分析

最新推荐文章于 2021-11-29 13:30:45 发布

仙贝昕

最新推荐文章于 2021-11-29 13:30:45 发布

阅读量461

点赞数

分类专栏：数据分析文章标签：数据分析大数据 python 数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44930184/article/details/105540046

版权

数据分析专栏收录该内容

1 篇文章 0 订阅

订阅专栏

（一）描述数据常用的4个指标
1.平均值
计算简单，但是易受异常值、极端值的影响

2.四分位数
2.1中位数

1）将数字从小到达排序

2）中间位置：奇数即为中间的数，偶数为中间两个数的平均值

2.2四分位数

上界：数据中最大值

下界：数据中最小值

Q1下四分位数：下界到中位数的中点

Q2中位数

Q3上四分位数：上界到中位数的中点

2.3箱线图

中位数若离下四分位数较近，说明大部分数据集中在下端及在下四分位数和中位数之间

2.4异常值

识别异常值方法：Tukey‘s test

最小估计值：Q1-k(Q3-Q1)

最大估计值：Q3+k(Q3-Q1)

k=1.5中度异常

k=3极度异常

3.标准差
说明数据集的波动情况

波动大小=离散程度=变异性

方差、标准差

越小越稳定

标准差的单位和所以计算的数据单位相同

标准差能表示数据整体的波动，但是它有个缺点：如果两个数据差别比较大，那么就无法比较。

比如店铺A的销售额是1000万，店铺B的销售额是100万，两个店铺的标准差都是20万。如果说两个店铺的“波动幅度相同”，这是不对的。因为一般情况下，如果原始数据值较大，那么它的波动（标准差）也会比较大。这句话怎么理解呢？比如，20万对于1000万和100万的比例是不一样的，一个是五分之一，一个是五十分之一。

如何避免标准差这个缺点呢？

如果能用标准差除以数据集的平均值，就可以消除数据大小的差异。标准差除以平均值得到的值叫作变异系数。

所以，我们通常用变异系数来比较不同数据集的波动大小。

4.标准分
相对

标准分=（x1-μ）/σ

标准分代表某个数值距离平均值多少个标准差，>0大于平均值，<0小于平均值，=0等于平均值

5.总结
在这里插入图片描述
（二）数据集

1.熟悉数据

数据来自淘宝和天猫上购买婴儿用户

数据来源：

阿里巴巴天池

淘宝和天猫上购买婴儿用户

本数据集包括2个excel文件：

表中分类原本为英文，在上方加入一行中文。

表1购买商品（sample)sam_tianchi_mum_baby_trade_history.csv）
在这里插入图片描述

数据集共有29971条信息记录，共有7个字段，分别为：

user_id:用户id，不重复

auction_id:物品编号（item_id）

cat_id: 商品种类ID（商品二级分类，表示商品属于哪个类别）二级指标，如淘宝首页数码（一级指标）分类，其中手机，耳机，打印机。键盘等都是相应的二级指标

cat1: 商品种类ID（商品一级分类，表示商品属于哪个类别）一级指标，如淘宝首页母婴、数码、运动、家居、女人、男人、美食、美妆等分类。

property:商品属性（可以是大小、尺寸、品牌等属性值）

buy_mount:购买数量

day:购买时间（是个时间戳格式，可以通过excel将时间戳显示未日期格式）格式即年月日。

表2婴儿信息（(sample)sam_tianchi_mum_baby.csv）

在这里插入图片描述
数据集共有953条信息记录，共有3个字段，分别为：

user_id:用户id，唯一且不重复

birthday:婴儿出生日期，格式为年月日。

gender:性别（0女性；1男性；2未知的性别）

2.从数据集中分析业务问题
2.1从数据集中获取描述统计信息

针对购买数量表和婴儿信息表，分别计算常用描述统计指标。

购买信息表可以计算购买数量的平均值、中位数、四分位数、标准差，画箱线图

婴儿信息表可以计算婴儿年龄的平均值、中位数、四分位数、标准差，画箱线图

2.2从数据集中分析业务问题

1.购买数量表分析某种分类下某种商品的购买数量，可以加上时间趋势，画出时间趋势图；分析某种属性、某种分类对购买数量的影响；

2.将两个表结合，根据每个用户婴儿的出生日期，和购买商品的日期，购买商品数量，分析时间趋势；分析婴儿性别与购买商品种类与商品属性之间的关系

本人知乎帐号Lxx

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。