(一)描述数据常用的4个指标
1.平均值
计算简单,但是易受异常值、极端值的影响
2.四分位数
2.1中位数
1)将数字从小到达排序
2)中间位置:奇数即为中间的数,偶数为中间两个数的平均值
2.2四分位数
上界:数据中最大值
下界:数据中最小值
Q1下四分位数:下界到中位数的中点
Q2中位数
Q3上四分位数:上界到中位数的中点
2.3箱线图
中位数若离下四分位数较近,说明大部分数据集中在下端及在下四分位数和中位数之间
2.4异常值
识别异常值方法:Tukey‘s test
最小估计值:Q1-k(Q3-Q1)
最大估计值:Q3+k(Q3-Q1)
k=1.5中度异常
k=3极度异常
3.标准差
说明数据集的波动情况
波动大小=离散程度=变异性
方差、标准差
越小越稳定
标准差的单位和所以计算的数据单位相同
标准差能表示数据整体的波动,但是它有个缺点:如果两个数据差别比较大,那么就无法比较。
比如店铺A的销售额是1000万,店铺B的销售额是100万,两个店铺的标准差都是20万。如果说两个店铺的“波动幅度相同”,这是不对的。因为一般情况下,如果原始数据值较大,那么它的波动(标准差)也会比较大。这句话怎么理解呢?比如,20万对于1000万和100万的比例是不一样的,一个是五分之一,一个是五十分之一。
如何避免标准差这个缺点呢?
如果能用标准差除以数据集的平均值,就可以消除数据大小的差异。标准差除以平均值得到的值叫作变异系数。
所以,我们通常用变异系数来比较不同数据集的波动大小。
4.标准分
相对
标准分=(x1-μ)/σ
标准分代表某个数值距离平均值多少个标准差,>0大于平均值,<0小于平均值,=0等于平均值
5.总结
(二)数据集
1.熟悉数据
数据来自淘宝和天猫上购买婴儿用户
数据来源:
阿里巴巴天池
本数据集包括2个excel文件:
表中分类原本为英文,在上方加入一行中文。
表1购买商品(sample)sam_tianchi_mum_baby_trade_history.csv)
数据集共有29971条信息记录,共有7个字段,分别为:
user_id:用户id,不重复
auction_id:物品编号(item_id)
cat_id: 商品种类ID(商品二级分类,表示商品属于哪个类别)二级指标,如淘宝首页数码(一级指标)分类,其中手机,耳机,打印机。键盘等都是相应的二级指标
cat1: 商品种类ID(商品一级分类,表示商品属于哪个类别)一级指标,如淘宝首页母婴、数码、运动、家居、女人、男人、美食、美妆等分类。
property:商品属性(可以是大小、尺寸、品牌等属性值)
buy_mount:购买数量
day:购买时间(是个时间戳格式,可以通过excel将时间戳显示未日期格式)格式即年月日。
表2婴儿信息((sample)sam_tianchi_mum_baby.csv)
数据集共有953条信息记录,共有3个字段,分别为:
user_id:用户id,唯一且不重复
birthday:婴儿出生日期,格式为年月日。
gender:性别(0女性;1男性;2未知的性别)
2.从数据集中分析业务问题
2.1从数据集中获取描述统计信息
针对购买数量表和婴儿信息表,分别计算常用描述统计指标。
购买信息表可以计算购买数量的平均值、中位数、四分位数、标准差,画箱线图
婴儿信息表可以计算婴儿年龄的平均值、中位数、四分位数、标准差,画箱线图
2.2从数据集中分析业务问题
1.购买数量表分析某种分类下某种商品的购买数量,可以加上时间趋势,画出时间趋势图;分析某种属性、某种分类对购买数量的影响;
2.将两个表结合,根据每个用户婴儿的出生日期,和购买商品的日期,购买商品数量,分析时间趋势;分析婴儿性别与购买商品种类与商品属性之间的关系
本人知乎帐号Lxx