数理统计与描述性统计

一、数理统计概念

注: 主要参考Datawhale课程资料,此处仅做大纲梳理,以便日后迅速回顾

1、基本概念

定义:在数理统计中,称研究对象的全体为总体,通常用一个随机变量表示总体。组成总体的每个基本单元叫个体。
样本的两重性:一经抽样便是一组确定数值;但在通常描述中样本也是一组随机变量,因为抽样本身就是随机的

2、常用统计量

1、样本均值:通常使用样本均值来估计总体分布的均值和对有关总体分布均值的假设做检验
2、样本方差:通常用样本方差来估计总体分布的方差和对有关总体分布均值或方差的假设做检验
3、k阶样本原点矩:k阶原点矩是随机变量x“偏离”原点(0,0)的“距离”的k次方的期望值。一般地,对于正整数k,如果E|(X-0)k|=E|Xk|=<∞,故称E(Xk) 为随机变量X的k阶原点矩。
4、k阶样本中心矩:k阶中心矩是随机变量x“偏离”其中心的“距离”的k次方的期望值。一般均以其平均数为“中心”。故,对于正整数k,如果E(X)存在,“偏离”E(x)的k次方的期望值存在、且E[|X - E(X)|k)]<∞,则称E{[X-E(X)]k}为随机变量X的k阶中心矩。如X的方差是X的二阶中心矩,即D(X)=E{[X-E(X)]2} 等。
5、顺序统计量:就是将样本按从小到大排序为x(1),x(2), …,x(n),则称X(1),X(2), …,X(n)为顺序统计量

二、描述性统计

1、数据集中趋势的度量

1 平均数
2 中位数
3 频数
4 众数
5 百分位数

python实现
#NumPy系统是Python的⼀一种开源的数值计算扩展。⽤用来存储和处理理⼤大型矩阵。
##平均数
import numpy as np
a = [1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_mean = np.mean(a) #均值
a_med = np.median(a) #中位数
print("a的平均数:",a_mean)
print("a的中位数:",a_med)
#------------------------------------------------------------
##众数
from scipy import stats
'''
Scipy是⼀一个⾼高级的科学计算库,Scipy⼀一般都是操控Numpy数组来进⾏行行科学计算,
Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅⾥里里叶变换、
信号处理理和图像处理理、常微分⽅方程求解和其他科学与⼯工程中常⽤用的计算。
'''
a_m1 =stats.mode(a)[0][0]
print("a的众数:",a_m)
#-------------------------------------------------------------
import pandas as pd
#将⼀一维数组转成Pandas的Series,然后调⽤用Pandas的mode()⽅方法
ser = pd.Series(a)
a_m2 = ser.mode()
print("a的众数:",a_m)
2、数据离散趋势的度量

1、方差
2、标准差
3、极差
4、变异系数
5、四分位差

Python实现
import numpy as np
a = [1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_var = np.var(a) #方差
a_std1 = np.sqrt(a_var) #标准差
a_std2 = np.std(a) #标准差
a_mean = np.mean(a) #均值
a_cv = a_std2 /a_mean #变异系数
print("a的方差:",a_var)
print("a的标准差:",a_std1)
print("a的标准差:",a_std2)
print("a的变异系数:",a_cv)
3、分布特征

引言:描述一个随机变量,不仅要说明它能够取那些值,而且还要关心它取这些值的概率
1、离散变量与随机变量:前者是数值是以自然数或整数来表示的,如班级人数,电脑台数等;而后者是在一定区间内可以取任意值的,如人体的身高,体重等
2、概率函数:使用函数的形式来表达概率
3、分布函数:一个随机变量在一区间内取值的表现规律
4、正态分布:是最常见的连续概率分布,又称为高斯分布
标准正态分布和对应区间上积分(面积)的百分比

4、偏度与峰度

偏度:也称为偏态,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度刻画的是分布函数(数据)的对称性情况。
峰度:说明的是分布曲线在平均值处峰值高低的特征数。直观来看,峰度反映了峰部的尖度。峰度刻画的是分布函数的集中和分散程度。
在这里插入图片描述

python实现
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
data = list(np.random.randn(10000))
#⽣生成标准正态分布的随机数(10000个)
plt.hist(data,1000,facecolor='g',alpha=0.5)
'''
plt.hist(arr, bins=10, facecolor, edgecolor,alpha,histtype='bar')
bins:直⽅方图的柱数,可选项,默认为10
alpha: 透明度
'''
plt.show()
s = pd.Series(data) #将数组转化为序列列
print('偏度系数',s.skew())
print('峰度系数',s.kurt())
效果图

在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
浙江大学 盛骤概率论与数理统计 研究随机现象数量规律的数学分支。随机现象是相对于决定性现象而言的。在一定条件下必然发生某一结果的现象称为决定性现象。例如在标准大气压下,纯水加热到100℃时水必然会沸腾等。随机现象则是指在基本条件不变的情况下,一系列试验或观察会得到不同结果的现象。每一次试验或观察前,不能肯定会出现哪种结果,呈现出偶然性。例如,掷一硬币,可能出现正面或反面,在同一工艺条件下生产出的灯泡,其寿命长短参差不齐等等。随机现象的实现和对它的观察称为随机试验。随机试验的每一可能结果称为一个基本事件,一个或一组基本事件统称随机事件,或简称事件。事件的概率则是衡量该事件发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的,但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律。例如,连续多次掷一均匀的硬币,出现正面的频率随着投掷次数的增加逐渐趋向于1/2。又如,多次测量一物体的长度,其测量结果的平均值随着测量次数的增加,逐渐稳定于一常数,并且诸测量值大都落在此常数的附近,其分布状况呈现中间多,两头少及某程度的对称性。大数定律及中心极限定理就是描述和论证这些规律的。在实际生活中,人们往往还需要研究某一特定随机现象的演变情况随机过程。例如,微小粒子在液体中受周围分子的随机碰撞而形成不规则的运动(即布朗运动),这就是随机过程。随机过程的统计特性、计算与随机过程有关的某些事件的概率,特别是研究与随机过程样本轨道(即过程的一次实现)有关的问题,是现代概率论的主要课题。
概率论与数理统计是一门研究随机现象规律的数学学科。它是应用广泛的一门学科,不仅在自然科学、工程技术等领域有着广泛的应用,还在金融、医学、社会科学等领域起着重要的作用。 概率论研究的是随机现象的规律性,通过概率的定义、性质、计算以及概率分布等内容来描述随机事件的发生机制。它能够给出一种客观的数学量化方法,用来描述随机事件发生的可能性大小,并且能够进行事件之间概率的运算,从而得到更深入的结论。 数理统计是根据已知的样本信息,利用概率论的方法对未知的总体进行推断和描述。它主要研究如何通过样本来获取总体的信息,并且对总体参数的估计和假设的检验等问题进行研究。通过数理统计的方法,可以通过一定的样本来对总体进行推断,从而更好地理解总体的特性。 概率论与数理统计的应用非常广泛。在自然科学中,可以用概率论来研究物理、化学等实验数据的规律性;在工程技术中,可以利用数理统计的方法来研究产品的质量控制;在金融领域,可以通过概率论和数理统计的方法来研究股票的价格变动等问题;在医学领域,可以利用数理统计的方法对各种疾病进行研究和分析;在社会科学领域,可以通过概率论和数理统计的方法来进行社会调查和统计等。总之,概率论与数理统计在各个领域都发挥着重要的作用,对于科学研究和实际应用都有着重要的意义。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值