数理统计与描述性统计

最新推荐文章于 2023-12-26 19:47:38 发布

牧羊人Santiago

最新推荐文章于 2023-12-26 19:47:38 发布

阅读量2.2k

点赞数

分类专栏： DataWhale 文章标签：统计学数据分析

本文链接：https://blog.csdn.net/sun18696427935/article/details/106937504

版权

DataWhale 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、数理统计概念

注：主要参考Datawhale课程资料，此处仅做大纲梳理，以便日后迅速回顾

1、基本概念

定义：在数理统计中，称研究对象的全体为总体，通常用一个随机变量表示总体。组成总体的每个基本单元叫个体。
样本的两重性：一经抽样便是一组确定数值；但在通常描述中样本也是一组随机变量，因为抽样本身就是随机的

2、常用统计量

1、样本均值：通常使用样本均值来估计总体分布的均值和对有关总体分布均值的假设做检验
2、样本方差：通常用样本方差来估计总体分布的方差和对有关总体分布均值或方差的假设做检验
3、k阶样本原点矩：k阶原点矩是随机变量x“偏离”原点(0,0)的“距离”的k次方的期望值。一般地，对于正整数k，如果E|(X-0)k|=E|Xk|=<∞，故称E(Xk) 为随机变量X的k阶原点矩。
4、k阶样本中心矩：k阶中心矩是随机变量x“偏离”其中心的“距离”的k次方的期望值。一般均以其平均数为“中心”。故，对于正整数k，如果E(X)存在，“偏离”E(x)的k次方的期望值存在、且E[|X - E(X)|k)]<∞，则称E{[X-E(X)]k}为随机变量X的k阶中心矩。如X的方差是X的二阶中心矩，即D(X)=E{[X-E(X)]2} 等。
5、顺序统计量：就是将样本按从小到大排序为x(1),x(2), …,x(n)，则称X(1),X(2), …,X(n)为顺序统计量

二、描述性统计

1、数据集中趋势的度量

1 平均数
2 中位数
3 频数
4 众数
5 百分位数

python实现

#NumPy系统是Python的⼀一种开源的数值计算扩展。⽤用来存储和处理理⼤大型矩阵。
##平均数
import numpy as np
a = [1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_mean = np.mean(a) #均值
a_med = np.median(a) #中位数
print("a的平均数:",a_mean)
print("a的中位数:",a_med)
#------------------------------------------------------------
##众数
from scipy import stats
'''
Scipy是⼀一个⾼高级的科学计算库，Scipy⼀一般都是操控Numpy数组来进⾏行行科学计算，
Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅⾥里里叶变换、
信号处理理和图像处理理、常微分⽅方程求解和其他科学与⼯工程中常⽤用的计算。
'''
a_m1 =stats.mode(a)[0][0]
print("a的众数:",a_m)
#-------------------------------------------------------------
import pandas as pd
#将⼀一维数组转成Pandas的Series，然后调⽤用Pandas的mode()⽅方法
ser = pd.Series(a)
a_m2 = ser.mode()
print("a的众数:",a_m)

2、数据离散趋势的度量

1、方差
2、标准差
3、极差
4、变异系数
5、四分位差

Python实现

import numpy as np
a = [1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_var = np.var(a) #方差
a_std1 = np.sqrt(a_var) #标准差
a_std2 = np.std(a) #标准差
a_mean = np.mean(a) #均值
a_cv = a_std2 /a_mean #变异系数
print("a的方差:",a_var)
print("a的标准差:",a_std1)
print("a的标准差:",a_std2)
print("a的变异系数:",a_cv)

3、分布特征

引言：描述一个随机变量，不仅要说明它能够取那些值，而且还要关心它取这些值的概率
1、离散变量与随机变量：前者是数值是以自然数或整数来表示的，如班级人数，电脑台数等；而后者是在一定区间内可以取任意值的，如人体的身高，体重等
2、概率函数：使用函数的形式来表达概率
3、分布函数：一个随机变量在一区间内取值的表现规律
4、正态分布：是最常见的连续概率分布，又称为高斯分布
标准正态分布和对应区间上积分（面积）的百分比

4、偏度与峰度

偏度：也称为偏态，是统计数据分布偏斜方向和程度的度量，是统计数据分布非对称程度的数字特征。偏度刻画的是分布函数（数据）的对称性情况。
峰度：说明的是分布曲线在平均值处峰值高低的特征数。直观来看，峰度反映了峰部的尖度。峰度刻画的是分布函数的集中和分散程度。
在这里插入图片描述

python实现

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
data = list(np.random.randn(10000))
#⽣生成标准正态分布的随机数（10000个）
plt.hist(data,1000,facecolor='g',alpha=0.5)
'''
plt.hist(arr, bins=10, facecolor, edgecolor,alpha，histtype='bar')
bins：直⽅方图的柱数，可选项，默认为10
alpha: 透明度
'''
plt.show()
s = pd.Series(data) #将数组转化为序列列
print('偏度系数',s.skew())
print('峰度系数',s.kurt())

效果图

在这里插入图片描述

牧羊人Santiago

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数理统计与描述性统计

一、数理统计概念注：主要参考Datawhale课程资料，此处仅做大纲梳理，以便日后迅速回顾1、基本概念定义：在数理统计中，称研究对象的全体为总体，通常用一个随机变量表示总体。组成总体的每个基本单元叫个体。样本的两重性：一经抽样便是一组确定数值；但在通常描述中样本也是一组随机变量，因为抽样本身就是随机的2、常用统计量1、样本均值：通常使用样本均值来估计总体分布的均值和对有关总体分布均值的假设做检验2、样本方差：通常用样本方差来估计总体分布的方差和对有关总体分布均值或方差的假设做检验3、k阶样
复制链接

扫一扫