Task02：数理统计与描述性分析

最新推荐文章于 2022-06-27 00:16:46 发布

彩虹糖66

最新推荐文章于 2022-06-27 00:16:46 发布

阅读量203

点赞数

文章标签：统计学

本文链接：https://blog.csdn.net/lxy09306jy/article/details/106950844

版权

数理统计

总体：研究对象的全体
个体：组成总体的每个基本单元

统计量与抽样

统计量是样本的某种函数
统计量的分布为抽样分布

常用的统计量

样本均值
样本方差
k阶样本原点矩
k阶样本中心矩
顺序统计量

描述性统计

数据集中趋势的度量

平均数：容易受极端值影响
中位数：不受极端值影响
众数：不受极端值影响；当数据具有明显的集中趋势时，代表性好
百分位数

import numpy as np
a=[1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_mean=np.mean(a)
a_med=np.median(a)
print("a的平均数：",a_mean)

from scipy import stats
#Scipy是一个高级的科学计算库，一般都是操控Numpy数组进行科学计算，
#Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理，常微积分方程求解和其他科学与工程中常用的计算
a_m1=stats.mode(a)[0][0]
print("a的众数",a_m1)

import pandas as pd
#将一维数组转成Pandas的Series,然后调用Pandas的mode()方法
ser=pd.Series(a)
a_m2=ser.mode()
print("a的众数",a_m2)

数据离散趋势的度量

方差
标准差
极差
变异系数：标准差与平均数之比
四分位差：样本上、下四分位数之差称为四分位数（半极差）

import numpy as np
a=[1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_var=np.var(a)
a_std1=np.sqrt(a_var)
a_std2=np.std(a)
a_mean=np.mean(a)
a_cv=a_std2/a_mean
print("a的方差",a_var)
print("a的标准差",a_std1)
print("a的标准差",a_std2)
print("a的变异系数",a_cv)

分布特征

1.离散变量：班级人数，电脑台数
连续变量：人体测量的身高、体重
2.概率函数（概率密度函数）：大量重复试验中出现的频率，它约等于事件出现的频数除以重复试验的次数。
3.分布函数（概率累计函数）
正态分布（高斯分布）
**3σ原则：**正态分布中，（μ-3σ，μ+3σ）上概率密度曲线之下的面积占总面积的99.7%。

偏度与峰度

偏度：是统计数据分布偏斜方向和程度的度量，是统计数据分布非对称程度的数字特征。右偏为正，左侧为负。
偏度刻画的是分布函数的对称性
峰度：峰度刻画的是分布函数的集中和分散程度

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
data=list(np.random.randn(10000))
#生成标准正态分布的随机数（10000个）
plt.hist(data,1000,facecolor='g',alpha=0.5)
#plt.hist(arr,bins=10,facecolor,edgecolor,alpha,histtype='bar')
#bins:直方图的柱数，可选项，默认为10
#alpha：透明度
plt.show()
s=pd.Series(data)#将数组转化为序列
print("偏度系数",s.skew())
print("峰度系数",s.kurt())

彩虹糖66

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Task02：数理统计与描述性分析

数理统计总体：研究对象的全体个体：组成总体的每个基本单元##统计量与抽样统计量是样本的某种函数统计量的分布为抽样分布##常用的统计量样本均值样本方差k阶样本原点矩k阶样本中心矩顺序统计量描述性统计##数据集中趋势的度量平均数：容易受极端值影响中位数：不受极端值影响众数：不受极端值影响；当数据具有明显的集中趋势时，代表性好百分位数##数据离散趋势的度量方差标准差极差变异系数：标准差与平均数之比四分位差：样本上、下四分位数之差称为四分位数（半极差）##分布特征1
复制链接

扫一扫