python 卡方分布值_数据分析|抽样分布

最新推荐文章于 2025-01-08 23:53:57 发布

weixin_39862382

最新推荐文章于 2025-01-08 23:53:57 发布

阅读量794

点赞数

文章标签： python 卡方分布值两个卡方分布之和如何把密度函数化为标准正态二维分布峰度和偏度在金融数据分析中有何应用

当对海量数据进行数据分析，查看数据分布情况的时候比较困难。就需要对样本进行抽样，通过抽样样本分布情况来反映总体样本的分布情况。

一、统计量

定义：x1,x2,....xn是从总体中抽取的容量为n的一个样本，如果由这些样本构造一个函数

T(x1,x2,...xn)不依赖于任何参数，则称函数T(x1,x2,...xn)为一个统计量

例如：样本均值 x均 = 1/n · Σxi 用样本均值来反映总体数据的信息

样本方差 S² = 1/n ·Σ(xi - x均) 用样本方差来反映总体方差的信息

样本变异系数：V = S / X均值，反映总体变异系数的信息

它反映出随机变量在以它的均值为单位时取值的离散程度，常用来刻画均值不同的不同总体的离散程度

样本K阶矩: 反映出总体k阶矩的信息。当k为1是为样本均值

样本偏度：反映了总体样本偏度信息。偏度代表随机变量密度曲线在众数两边的对称偏斜性

s是样本的标准差，m3是样本的3阶中心距

样本峰度：反映了总体样本峰度信息。峰度代表密度函数曲线在众数附近的“峰”的尖峭程度

m4是样本四阶平均距，m2是样本二阶平均距

次序统计量：设 X1,X2, …, Xn是取自总体X的样本，X(i) 称为该样本的第i个次序统计量，它的取值是将样本观测值由小到大排列后得到的第i个观测值。从小到大排序为x(1),x(2),…,x(n)，则称X(1),X(2), …,X(n)为顺序统计量

R(n)=x(n) - x(1)为样本极差，极差反映了样本中最大值与最小值之间的差

充分统计量：对于给定的统计推断问题，包含了原样本中关于该问题的全部有用信息的统计量

二、由正态分布导出的重要分布

有很多统计推断是基于正态分布的假设，以标准正态分布变量为基石而构造的三个著名统计量在实际中有广泛的应用，这是因为这三个统计量不仅有明确背景，而且其抽样分布的密度函数有显式表达式，它们被称为统计中的“三大抽样分布”。这三大抽样分布即为著名的卡方分布，t分布和F分布

卡方分布

若n个相互独立的随机变量ξ₁，ξ₂，...,ξn ，均服从标准正态分布(也称独立同分布于标准正态分布)，则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量，其分布规律称为卡方分布

卡方分布性质：分布的形状取决于其自由度n的大小，通常为不对称的正偏态分布，但随着自由度的增大逐渐趋近与对称，期望为E = n ，方差为D =2n；若U和V为两个独立的卡方分布 U的自由度为n1

V的自由度为n2，U+V的自由度为n1+n2

t分布

说起t分布，首先要提一句u分布，正态分布(normal distribution)是许多统计方法的理论基础。正态分布的两个参数μ和σ决定了正态分布的位置和形态。为了应用方便，常将一般的正态变量X通过u变换[(X-μ)/σ]转化成标准正态变量u，以使原来各种形态的正态分布都转换为μ=0，σ=1的标准正态分布(standard normaldistribution),亦称u分布。根据中心极限定理，通过抽样模拟试验表明，在正态分布总体中以固定 n 抽取若干个样本时，样本均数的分布仍服从正态分布，即N(μ，σ)。所以，对样本均数的分布进行u变换，也可变换为标准正态分布N (0,1)。

由于在实际工作中，往往σ(总体方差)是未知的，常用s(样本方差)作为σ的估计值，为了与u变换区别，称为t变换，统计量t 值的分布称为t分布。