求离散数据的突变点_统计学基础（1）数据描述性统计

最新推荐文章于 2024-09-02 22:03:28 发布

weixin_39767887

最新推荐文章于 2024-09-02 22:03:28 发布

阅读量783

点赞数

文章标签：求离散数据的突变点

统计学基础（1）数据描述性统计

数据的集中趋势

众数：数据集中出现次数最多的类别或值

import numpy as np#调用numpy函数
nums = [1,2,3,4,5,3,4,3] 
#numpy无法直接求得，故使用np.bincount方法返回了一个长度为nums最大值的列表，
#列表中的每个值代表其索引位数值出现在nums中的次数，
counts = np.bincount(nums)
# 然后再使用np.argmax就能得到众数，注意：由于索引位数值从0开始，故只能使用在非负数数据集中
print("众数：",np.argmax(counts))
众数： 3

中位数：

在数据集中拥有一半的数据高于这个值，一半低于这个值。

nums = [1,2,3,4,5,6]#直接调用median函数即可
print("中位数：",np.median(nums))
中位数： 3.5

分位数：

又叫分位点，指将一个随机变量的概率分布范围分为几个等份的数值点，常用的有中位数，四分位数，百分位数。

四分位数：表示第75 百分位数和第25 百分位数间的差值。

百分位数：表示一个数据集中，P%的值小于或等于第P百分位数，(100−P)% 的值大于或等于第P百分位数。

nums = [1,2,3,4,5,6,7,8,9,10]#调用percentile函数求四分位数和中分位数
print("四分位数及中位数：",np.percentile(nums, (25, 50, 75), interpolation='midpoint'))
四分位数及中位数： [3.5 5.5 7.5]

极差：

数据集中最大值和最小值间的差值。

nums = [1,2,3,4,5,6,7,8,9,10]
print("极差：",max(nums)-min(nums))
极差： 9

平均数：

是最基本的位置估计量，均值等于所有值的总和除以值的个数。例如，集合{3, 5, 1, 2}的均值是(3 + 5 + 1 + 2)/4 = 11/4 = 2.75。一般使用符号x （读作“x拔”）表示总体中一个样本的均值。给定n 个数据值：x1, x2, …, xN，均值的计算公式为：

nums = [1,2,3,4]#直接调用mean函数即可这里仅求平均数
print("平均值",np.mean(nums))
平均值 2.5

算术平均数：

算术平均数，又称均值，是统计学中最基本、最常用的一种平均指标，分为简单算术平均数、加权算术平均数。它主要适用于数值型数据，不适用于品质数据。算术平均数是加权平均数的一种特殊形式（特殊在各项的权重相等）。在实际问题中，当各项权重不相等时，计算平均数时就要采用加权平均数；当各项权相等时，计算平均数就要采用算术平均数。

加权平均数：

各数值乘以相应的权重值，然后加总求和，再除以权重的总和。在计算加权均值时，要将每个值xi 乘以一个权重值wi，并将加权值的总和除以权重的总和。计算公式为：

几何平均数：

几何平均数是对各变量值的连乘积开项数次方根。求几何平均数的方法叫做几何平均法。

简单几何平均数：

加权几何平均数：

数据的离中趋势

数值型数据：方差、标准差、极差、平均差

方差：

对于n 个数据值，方差是对距离均值的偏差平方后求和，再除以n-1。

nums = [1,2,3,4,5,6,7,8,9,10]
print("方差:", np.var(nums))
方差: 8.25

标准差：

方差的平方根。

nums = [1,2,3,4,5,6,7,8,9,10]
print("标准差:", np.std(nums))
标准差: 2.8722813232690143

极差：

数据集中最大值和最小值间的差值。

nums = [1,2,3,4,5,6,7,8,9,10]
print("极差：",max(nums)-min(nums))
极差： 9

平均差：

对数据值与均值间偏差的绝对值计算均值。

import numpy
nums = [1,2,3,4,5,6,7,8,9,10]
N=len(nums)
narray=np.array(nums)
sum1=narray.sum()
narray2=narray*narray
sum2=narray2.sum()
mean=sum1/N
var=sum2/N-mean**2
print("平均差：",var)
平均差： 8.25

顺序数据：四分位差

四分位差：

又称四分位距，第75 百分位数和第25 百分位数间的差值。

nums = [1,2,3,4,5,6,7,8,9,10]
lower_q=np.quantile(nums,0.25,interpolation='lower')#下四分位数
higher_q=np.quantile(nums,0.75,interpolation='higher')#上四分位数
int_r=higher_q-lower_q#四分位距
print("下四分位数:",lower_q,"上四分位数",higher_q,"四分位距",int_r)
下四分位数: 3 上四分位数 8 四分位距 5

分类数据：异种比率

异种比率

指的是总体中非众数次数与总体全部次数之比。换句话说，异众比率指非众数组的频数占总频数的比例。

nums = [1,2,3,4,5,3,4,3] 
counts = np.bincount(nums)
print("众数：",np.argmax(counts))
res=[]
for one in nums:
    if one!=3:
        res.append(one)

print("异种比率：",len(res)/len(nums))
众数： 3
异种比率： 0.625

相对离散程度

离散系数：

又称变异系数，离散系数是测度数据离散程度的相对统计量，主要是用于比较不同样本数据的离散程度。离散系数大，说明数据的离散程度也大；离散系数小，说明数据的离散程度也小。

nums = [1,2,3,4,5,6,7,8,9,10]
print('离散系数:',np.std(nums)/np.mean(nums))
离散系数: 0.5222329678670935

分布的形状

偏态系数：

以平均值与中位数之差对标准差之比率来衡量偏斜的程度，用SK表示偏斜系数:偏态系数小于0，因为平均数在众数之左，是一种左偏的分布，又称为负偏。偏态系数大于0，因为均值在众数之右，是一种右偏的分布，又称为正偏。

简单偏态系数：

加权偏态系数：

import stats as sts
nums = [1,2,3,4,5,6,7,8,9,10,12,21,342,5423,132]
print("偏度:",sts.skewness(nums))
偏度: 3.1110045506794255

峰态系数：

利用四阶中心矩与σ4的比值作为衡量峰度的指标。

nums = [1,2,3,4,5,6,7,8,9,10]
print("峰度:",sts.kurtosis(nums))
峰度: -1.561636363636364

weixin_39767887

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
求离散数据的突变点_统计学基础（1）数据描述性统计

统计学基础（1）数据描述性统计数据的集中趋势众数：数据集中出现次数最多的类别或值import numpy as np#调用numpy函数nums = [1,2,3,4,5,3,4,3] #numpy无法直接求得，故使用np.bincount方法返回了一个长度为nums最大值的列表，#列表中的每个值代表其索引位数值出现在nums中的次数，counts = np.bincount(nums)...
复制链接

扫一扫