Datawhale概率统计Task 02-数理统计与描述性统计

一、数理统计概念

1.基本概念释义
  • 定义:在数理统计中,称研究对象的全体为总体,通常用一个随机变量表示总体。组成总体的每个基本单元叫个体。从总体 X X X 中随机抽取一部分个体 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn ,称 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 为取自 X X X 的容量为 n n n 的样本。

​ 例如,为了研究某厂生产的一批元件质量的好坏,规定使用寿命低于1千小时的为次品,则该批元件的全体就为总体,每个元件就是个体。实际上,数理统计学中的总体是指与总体相联系的某个(或某几个)数量指标 X X X 取值的全体。比如,该批元件的使用寿命 X X X 的取值全体就是研究对象的总体。显然 X X X 是随机变量,这时,就称 X X X 为总体。

​ 为了判断该批元件的次品率,最精确的办法是取出全部元件,对作元件的寿命试验。然而,寿命试验具有破坏性,即使某些试验是非破坏性的,因此只能从总体中抽取一部分,对 n n n 个个体进行试验。试验结果可得组数值集合 { x 1 , x 2 , . . . , x n } \{ x_1,x_2,...,x_n \} {x1,x2,...,xn} ,其中每个 x i x_i xi 是第 i i i 次抽样观察的结果。由于要根据这些观察结果来对总体进行推断,所以对每次抽样就需要有一定的要求,要求每次抽取必须是随机的、独立的,这样才能较好地反映总体情况。所谓随机的是指每个个体被抽到的机会是均等的,这样抽到的个体才具有代表性。若$ x_1,x_2,…,x_n $ 相互独立,且每个 x i x_i xi X X X 同分布,则称$ x_1,x_2,…,x_n $ 为简单随机样本,简称样本.通常把 n n n 称为样本容量。

值得注意的是,样本具有两重性,即当在一次具体地抽样后它是一组确定的数值。但在一般叙述中样本也是一组随机变量,因为抽样是随机的。一般地,用 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...Xn , 表示随机样本,它们取到的值记为 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...xn 称为样本观测值。

样本作为随机变量,有一定的概率分布,这个概率分布称为样本分布。显然,样本分布取决于总体的性质和样本的性质。

2.统计量与抽样

数理统计的任务是采集和处理带有随机影响的数据,或者说收集样本并对之进行加工,以此对所研究的问题作出一定的结论,这一过程称为为统计推断。在统计推断中,对样本进行加工整理,实际上就是根据样本计算出一些量,使得这些量能够将所研究问题的信息集中起来。这种根据样本计算出的量就是下面将要定义的统计量,因此,统计量是样本的某种函数。

  • 定义:设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 是总体 X X X 的一个简单随机样本, T ( X 1 , X 2 , . . . , X n ) T(X_1, X_2,...,X_n) T(X1,X2,...,Xn) 为一个 n n n 元连续函数,且 T T T 中不包含任何关于总体的未知参数,则称 T ( X 1 , X 2 , . . . , X n ) T(X_1, X_2,...,X_n) T(X1,X2,...,Xn) 是一个统计量,称统计量的分布为抽样分布。
3.常用的统计量
  1. 样本均值

X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 是总体 X X X 的一个简单随机样本,称
X ‾ = 1 n ∑ i = 1 n X i \overline X = \frac{1} {n} {\sum_{i=1}^{n}X_i} X=n1i=1nXi
为样本均值。通常用样本均值来估计总体分布的均值和对有关总体分布均值的假设作检验。

  1. 样本方差

设 $X_1,X_2,…,X_n $ 是总体 X X X 的一个简单随机样本, X ‾ \overline X X 为样本均值,称
S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 S^2 = \frac{1} {n-1} {\sum_{i=1}^{n}(X_i-\overline X)^2} S2=n11i=1n(XiX)2
为样本方差。通常用样本方差来估计总体分布的方差和对有关总体分布均值或方差的假设作检验。

  1. k k k阶样本原点矩

设 $X_1,X_2,…,X_n $ 是总体 X X X 的一个简单随机样本,称
A k = 1 n ∑ i = 1 n X i k A_k = \frac{1} {n} {\sum_{i=1}^{n}X_i^k} Ak=n1i=1nXik
为样本的 k k k 阶原点矩(可以看到 k = 1 k=1 k=1 时,相当于样本均值),通常用样本的无阶原点矩来估计总体分布的 k k k 阶原点矩。

  1. k k k 阶样本中心矩

X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 是总体 X X X 的一个简单随机样本, X ‾ \overline X X 为样本均值,称
M k = 1 n ∑ i = 1 n ( X i − X ‾ ) k M_k = \frac{1} {n} {\sum_{i=1}^{n}(X_i-\overline X)^k} Mk=n1i=1n(XiX)k
为样本的 k k k 阶中心矩,通常用样本的 k k k 阶中心矩来估计总体分布的 k k k 阶中心矩。

其实当样本量足够大时, 1 / n 1/n 1/n 1 / ( n − 1 ) 1/(n-1) 1/(n1) 近似于相等。

  1. 顺序统计量

X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 是抽自总体 X X X 的样本, x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...xn 为样本观测值。将 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...xn 按照从小到大的顺序排列为
x ( 1 ) < = x ( 2 ) < = . . . < = x ( n ) x_{(1)}<=x_{(2)}<=...<=x_{(n)} x1<=x2<=...<=xn
当样本 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 取值 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...xn 时,定义 X ( k ) X_{(k)} X(k) 取值 X ( k ) ( k = 1 , 2 , . . . , n ) X_{(k)}(k=1,2,...,n) X(k)k=1,2...,n,称 X ( 1 ) , X ( 2 ) , . . . , X ( n ) X_{(1)},X_{(2)},...,X_{(n)} X1,X2,...,Xn X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 的顺序统计量。

显然, X ( 1 ) = m i n X i X_{(1)} =min {X_i} X1=minXi 是样本观察中最小的一个,称为最小顺序统计量。 X ( n ) = m a x X i X_{(n)} =max {X_i} Xn=maxXi 是样本观测值中取值最大的一个,成为最大顺序统计量。称 X ( r ) X_{(r)} Xr 为第 r r r 个顺序统计量。

二、描述性统计

1.数据集中趋势的度量
  • 平均数:

是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。

  • 中位数:

    是指在一组数据,按顺序排列后,居于中间位置的数。中位数描述数据中心位置的数字特征,对于对称分布的数据,均值与中位数比较接近;对于偏态分布的数据,均值与中位数不同。中位数不受异常值的影响,具有稳健性。

  • 频数:指同一观测值在一组数据中出现的次数(掷骰子中,一共掷了20次,出现数字5的次数)。

  • 众数就是一组数据中,出现次数最多的那个数(几个数)。

  • 均值 vs 中位数 vs 众数

优点缺点
均值充分利用所有数据,适用性强容易受极端值影响
中位数不受极端值影响缺乏敏感性
众数不受极端值影响;当数据具有明显的集中趋势时,代表性好缺乏唯一性
  • 百分位数:

    百分位数是中位数的推广,将数据按从小到大排列后,对于
    0 ≤ p < 1 0 \leq p < 1 0p<1
    它的p分位点定义为

    其中,[np]表示np的整数部分。所以,0.5分位数(第50百分位数)就是中位数。

#NumPy系统是Python的一种开源的数值计算扩展。用来存储和处理大型矩阵。
import numpy as np 
a = [1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_mean = np.mean(a)  #均值
a_med = np.median(a)  #中位数
print("a的平均数:",a_mean)
print("a的中位数:",a_med)
#------------------------------------------------------------
from scipy import stats   
'''
Scipy是一个高级的科学计算库,Scipy一般都是操控Numpy数组来进行科学计算,
Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、
信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。
'''
a_m1 =stats.mode(a)[0][0]
print("a的众数:",a_m)
#-------------------------------------------------------------
import pandas as pd
#将一维数组转成Pandas的Series,然后调用Pandas的mode()方法
ser = pd.Series(a)
a_m2 = ser.mode()
print("a的众数:",a_m)
2.数据离散趋势的度量

表示数据分散(离散,差异)程度的特征量有方差,标准差,极差以及变异系数等。

  • 方差:

    用来计算每一个变量(观察值)与总体均数之间的差异。实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后,样本方差计算公式:

甲、乙两人同时向目标靶射击10发子弹,甲射击的环数分别是:

4445689101010
6667777888

射击结果都为平均7环。因为乙的射击点较集中,射击的稳定性较好,所以乙的射击效果较好。这里的方差的作用就体现了。甲的方差为2.66,乙的方差为0.82;

  • 标准差:

    样本方差的开平方成为样本标准差。

  • 极差:

数据越分散,极差越大。

  • 变异系数:

    • 是刻画数据相对分散性的一种度量。变异系数只在平均值不为零时有定义,而且一般适用于平均值大于零的情况。变异系数也被称为标准离差率单位风险
    • 当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲的不同,变异系数可以消除测量尺度和量纲的影响。
  • 四分位差

    样本上、下四分位数之差称为四分位差(或半极差)。
    R 1 = Q 3 − Q 1 R_1 = Q_3 - Q_1 R1=Q3Q1
    它也是度量样本分散性的重要数字特征,特别对于具有异常值的数据,它作为分散性具有稳健性 (见百分位数示意图)

import numpy as np 
a = [1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_var = np.var(a)  #方差
a_std1 = np.sqrt(a_var) #标准差
a_std2 = np.std(a) #标准差
a_mean = np.mean(a)  #均值
a_cv =  a_std2 /a_mean #变异系数
print("a的方差:",a_var)
print("a的方差:",a_std1)
print("a的方差:",a_std2)
print("a的变异系数:",a_cv)
3. 分布特征

引言:描述一个随机变量,不仅要说明它能够取那些值,而且还要关心它取这些值的概率(可能性)。

  • 离散变量与连续变量:

    离散型随机变量是指其数值只能用自然数或整数单位计算的则为离散变量。例如, 班级人数,电脑台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得。

    反之,在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,即可取无限个数值。例如,人体测量的身高,体重等。

  • 概率函数:就是用函数的形式来表达概率。

    (大量重复试验中出现的频率来估计概率,它约等于事件出现的频数除以重复试验的次数)
    P i = P ( X = a i ) ( i = 1 , 2 , 3 , 4 , 5 , 6 ) P_i = P(X=a_i)(i=1,2,3,4,5,6) Pi=P(X=ai)i=1,2,3,4,5,6
    P(X=1)=1/6,这代表用概率函数的形式来表示,当随机变量X取值为1的概率为1/6,一次只能代表一个随机变量的取值。 (抛骰子游戏)

    骰子点数123456总计
    出现的频数161716171717100

    数字1出现的概率(1/6)约等于(16/100)。

    连续型随机变量的概率函数就叫做概率密度函数

  • 分布函数:

  • 正态分布:

4.偏度与峰度

偏度(skewness):也称为偏态,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。直观看来就是密度函数曲线尾部的相对长度。**偏度刻画的是分布函数(数据)的对称性。**关于均值对称的数据其偏度系数为0,右侧更分散的数据偏度系数为正,左侧更分散的数据偏度系数为负。

  1. 正态分布的偏度为0,两侧尾部长度对称。
  2. 左偏:
  • 若以bs表示偏度。bs<0称分布具有负偏离,也称左偏态;
  • 此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于与右边的尾部要长;
  • 因为有少数变量值很小,使曲线左侧尾部拖得很长;

3.右偏:

  • bs>0称分布具有正偏离,也称右偏态;
  • 此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长;
  • 因为有少数变量值很大,使曲线右侧尾部拖得很长;

**峰度(peakedness;kurtosis):**说明的是分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。峰度刻画的是分布函数的集中和分散程度。

样本偏度系数:

样本峰度系数:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
data = list(np.random.randn(10000))
#生成标准正态分布的随机数(10000个)
plt.hist(data,1000,facecolor='g',alpha=0.5)
'''
plt.hist(arr, bins=10, facecolor, edgecolor,alpha,histtype='bar')
bins:直方图的柱数,可选项,默认为10
alpha: 透明度
'''
plt.show()
s = pd.Series(data) #将数组转化为序列
print('偏度系数',s.skew())
print('峰度系数',s.kurt())
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
概率论与数理统计是数学的两个重要分支,它们主要研究随机现象和数据分析。概率论研究随机事件发生的概率以及随机变的性质和分布规律。而数理统计则是通过收集、整理和分析数据来推断总体的特征和进行决策。在概率,正态分布是一种常见的概率分布,它以均值μ为对称轴,具有集趋势和离散程度的特征。正态分布的形状由标准差σ来描述,σ越大,数据分布越分散,σ越小,数据分布越集。正态分布的"3σ"原则认为,在实际问题,X落在(μ-3σ,μ+3σ)以外的概率很小,可以认为相应的事件是不会发生的。\[1\] 另外,数理统计还有其他的分布,比如均匀分布和指数分布。均匀分布是指在一个区间内,各个取值的概率是相等的。指数分布是一种连续概率分布,具有右偏的特征,其概率密度函数随着变的增大而逐渐递减。指数分布的期望值和方差分别为1/λ和1/λ²,其λ为单位时间事件发生的次数。\[2\] 在数理统计,对于多个样本均数的比较,常采用方差分析方法。方差分析可以将总变异分解为组间变异和组内变异,用于比较多个样本总体均数是否相等。如果拒绝了检验假设,说明多个样本总体均数不相等或不全等。如果需要进一步比较各组均数之间的差异,可以进行多个样本均数的两两比较。\[3\] 综上所述,概率论与数理统计是研究随机现象和数据分析的重要工具,通过概率分布和统计方法可以对随机事件和数据进行分析和推断。 #### 引用[.reference_title] - *1* *2* *3* [统计基础之概率论与数理统计(完结)](https://blog.csdn.net/weixin_44198415/article/details/89291541)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值