求离散数据的突变点_统计学基础(1) 数据描述性统计

统计学基础(1) 数据描述性统计

数据的集中趋势

众数:数据集中出现次数最多的类别或值

import numpy as np#调用numpy函数
nums = [1,2,3,4,5,3,4,3] 
#numpy无法直接求得,故使用np.bincount方法返回了一个长度为nums最大值的列表,
#列表中的每个值代表其索引位数值出现在nums中的次数,
counts = np.bincount(nums)
# 然后再使用np.argmax就能得到众数,注意:由于索引位数值从0开始,故只能使用在非负数数据集中
print("众数:",np.argmax(counts))
众数: 3

中位数:

在数据集中拥有一半的数据高于这个值,一半低于这个值。

nums = [1,2,3,4,5,6]#直接调用median函数即可
print("中位数:",np.median(nums))
中位数: 3.5

分位数:

又叫分位点,指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数,四分位数,百分位数。

四分位数:表示第75 百分位数和第25 百分位数间的差值。

百分位数:表示一个数据集中,P%的值小于或等于第P百分位数,(100−P)% 的值大于或等于第P百分位数。

nums = [1,2,3,4,5,6,7,8,9,10]#调用percentile函数求四分位数和中分位数
print("四分位数及中位数:",np.percentile(nums, (25, 50, 75), interpolation='midpoint'))
四分位数及中位数: [3.5 5.5 7.5]

极差:

数据集中最大值和最小值间的差值。

nums = [1,2,3,4,5,6,7,8,9,10]
print("极差:",max(nums)-min(nums))
极差: 9

平均数:

是最基本的位置估计量,均值等于所有值的总和除以值的个数。例如,集合{3, 5, 1, 2}的均值是(3 + 5 + 1 + 2)/4 = 11/4 = 2.75。一般使用符号x (读作“x拔”)表示总体中一个样本的均值。给定n 个数据值:x1, x2, …, xN,均值的计算公式为:

e1770ef46eac8a7555b7eba1571a0688.png
nums = [1,2,3,4]#直接调用mean函数即可这里仅求平均数
print("平均值",np.mean(nums))
平均值 2.5

算术平均数:

算术平均数,又称均值,是统计学中最基本、最常用的一种平均指标,分为简单算术平均数、加权算术平均数。它主要适用于数值型数据,不适用于品质数据。算术平均数是加权平均数的一种特殊形式(特殊在各项的权重相等)。在实际问题中,当各项权重不相等时,计算平均数时就要采用加权平均数;当各项权相等时,计算平均数就要采用算术平均数。

e1770ef46eac8a7555b7eba1571a0688.png

加权平均数:

各数值乘以相应的权重值,然后加总求和,再除以权重的总和。在计算加权均值时,要将每个值xi 乘以一个权重值wi,并将加权值的总和除以权重的总和。计算公式为:

e1770ef46eac8a7555b7eba1571a0688.png

几何平均数:

几何平均数是对各变量值的连乘积开项数次方根。求几何平均数的方法叫做几何平均法。

简单几何平均数:

e1770ef46eac8a7555b7eba1571a0688.png

加权几何平均数:

e1770ef46eac8a7555b7eba1571a0688.png

数据的离中趋势

数值型数据:方差、标准差、极差、平均差

方差:

对于n 个数据值,方差是对距离均值的偏差平方后求和,再除以n-1。

e1770ef46eac8a7555b7eba1571a0688.png
nums = [1,2,3,4,5,6,7,8,9,10]
print("方差:", np.var(nums))
方差: 8.25

标准差:

方差的平方根。

e1770ef46eac8a7555b7eba1571a0688.png
nums = [1,2,3,4,5,6,7,8,9,10]
print("标准差:", np.std(nums))
标准差: 2.8722813232690143

极差:

数据集中最大值和最小值间的差值。

nums = [1,2,3,4,5,6,7,8,9,10]
print("极差:",max(nums)-min(nums))
极差: 9

平均差:

对数据值与均值间偏差的绝对值计算均值。

e1770ef46eac8a7555b7eba1571a0688.png
import numpy
nums = [1,2,3,4,5,6,7,8,9,10]
N=len(nums)
narray=np.array(nums)
sum1=narray.sum()
narray2=narray*narray
sum2=narray2.sum()
mean=sum1/N
var=sum2/N-mean**2
print("平均差:",var)
平均差: 8.25

顺序数据:四分位差

四分位差:

又称四分位距,第75 百分位数和第25 百分位数间的差值。

e1770ef46eac8a7555b7eba1571a0688.png
nums = [1,2,3,4,5,6,7,8,9,10]
lower_q=np.quantile(nums,0.25,interpolation='lower')#下四分位数
higher_q=np.quantile(nums,0.75,interpolation='higher')#上四分位数
int_r=higher_q-lower_q#四分位距
print("下四分位数:",lower_q,"上四分位数",higher_q,"四分位距",int_r)
下四分位数: 3 上四分位数 8 四分位距 5

分类数据:异种比率

异种比率

指的是总体中非众数次数与总体全部次数之比。换句话说,异众比率指非众数组的频数占总频数的比例。

e1770ef46eac8a7555b7eba1571a0688.png
nums = [1,2,3,4,5,3,4,3] 
counts = np.bincount(nums)
print("众数:",np.argmax(counts))
res=[]
for one in nums:
    if one!=3:
        res.append(one)

print("异种比率:",len(res)/len(nums))
众数: 3
异种比率: 0.625

相对离散程度

离散系数:

又称变异系数,离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。

e1770ef46eac8a7555b7eba1571a0688.png
nums = [1,2,3,4,5,6,7,8,9,10]
print('离散系数:',np.std(nums)/np.mean(nums))
离散系数: 0.5222329678670935

分布的形状

偏态系数:

以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用SK表示偏斜系数:偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。

简单偏态系数:

e1770ef46eac8a7555b7eba1571a0688.png

加权偏态系数:

e1770ef46eac8a7555b7eba1571a0688.png
import stats as sts
nums = [1,2,3,4,5,6,7,8,9,10,12,21,342,5423,132]
print("偏度:",sts.skewness(nums))
偏度: 3.1110045506794255

峰态系数:

利用四阶中心矩与σ4的比值作为衡量峰度的指标。

e1770ef46eac8a7555b7eba1571a0688.png
nums = [1,2,3,4,5,6,7,8,9,10]
print("峰度:",sts.kurtosis(nums))
峰度: -1.561636363636364
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值