mysql计算相关系数_描述统计学:五数概括法、箱形图、协方差和相关系数

五数概括法

通俗的说就是最小,第一四分位,第二四分位,第三四分位,最大数

箱形图

箱形图是基于五数概括法的数据的一个图形汇总。

1113-1.png

箱形图的说明:

(1)边界分别为第一四分位数和第三四分位数

(2)在箱体上中位数即第二四分数处画垂线

(3)利用四分位数间距IQR = Q3-Q1,找到界限,超出即为异常值。

IQR左 = Q1 - 1.5×IQR

IQR右 = Q3 + 1.5×IQR

(4)虚线被称为触须线,触须线的端点为最小值和最大值

(5)每个异常值的位置用符号'*'来标出。

箱线图提供了另一种检测异常值的方法,但他和Z-分数检测出的异常值不一定相同,可选一种或两种。

练习

数据集的第一四分位数为42,第三四分位数为50,计算箱形图的上、下界限。数据值65是否应该认为是一个异常值?

上限:50+1.5*8 = 62

65大于上限,是异常值

1113-2.png

import numpy as np

import pandas as pd

from pandas import Series

data = [8408,1374,1872,8879,2459,11413,608,14138,6452,1850,2818,1356,10498,7478,4019,4341,739,2127,3653,5794,8305]

data_sale = Series(data)

data_sale

a

min 608.000000

25% 1872.000000

50% 4019.000000

75% 8305.000000

max 14138.000000

b

下界限:1872-1.5*(8305-1872) = -7777.5

上界限: 8305+1.5*(8305-1872) = 17954.5

c. 最小最大值都在界限范围内,数据中没有异常值

d. 可以发现,因为最大上限只有179.54亿

e. 箱线图代码

import matplotlib.pyplot as plt

import matplotlib.pyplot as plt<

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值