1.数理统计基础
1.1 基本概念
总体,个体,样本容量。
- 定义:在数理统计中,称研究对象的全体为总体,通常用一个随机变量表示总体。组成总体的每个基本单元叫个体。从总体 X X X 中随机抽取一部分个体 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn ,称 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 为取自 X X X 的容量为 n n n 的样本。
样本的两重性(随机样本与样本观测值)
- 样本具有两重性,即当在一次具体地抽样后它是一组确定的数值。但在一般叙述中样本也是一组随机变量,因为抽样是随机的。一般地,用 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn , 表示随机样本,它们取到的值记为 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn 称为样本观测值。
1.2常用统计量
统计量是样本的某种函数,其能够将所研究问题的信息集中起来。
- 定义:设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 是总体 X X X 的一个简单随机样本, T ( X 1 , X 2 , . . . , X n ) T(X_1, X_2,...,X_n) T(X1,X2,...,Xn) 为一个 n n n 元连续函数,且 T T T 中不包含任何关于总体的未知参数,则称 T ( X 1 , X 2 , . . . , X n ) T(X_1, X_2,...,X_n) T(X1,X2,...,Xn) 是一个统计量,称统计量的分布为抽样分布。
- 样本均值
设
X
1
,
X
2
,
.
.
.
,
X
n
X_1,X_2,...,X_n
X1,X2,...,Xn 是总体
X
X
X 的一个简单随机样本,称
X
‾
=
1
n
∑
i
=
1
n
X
i
\overline X = \frac{1} {n} {\sum_{i=1}^{n}X_i}
X=n1i=1∑nXi
为样本均值。通常用样本均值来估计总体分布的均值和对有关总体分布均值的假设作检验。
- 样本方差
设
X
1
,
X
2
,
.
.
.
,
X
n
X_1,X_2,...,X_n
X1,X2,...,Xn 是总体
X
X
X 的一个简单随机样本,
X
‾
\overline X
X 为样本均值,称
S
2
=
1
n
−
1
∑
i
=
1
n
(
X
i
−
X
‾
)
2
S^2 = \frac{1} {n-1} {\sum_{i=1}^{n}(X_i-\overline X)^2}
S2=n−11i=1∑n(Xi−X)2
为样本方差。通常用样本方差来估计总体分布的方差和对有关总体分布均值或方差的假设作检验。
- k k k阶样本原点矩
设
X
1
,
X
2
,
.
.
.
,
X
n
X_1,X_2,...,X_n
X1,X2,...,Xn 是总体
X
X
X 的一个简单随机样本,称
A
k
=
1
n
∑
i
=
1
n
X
i
k
A_k = \frac{1} {n} {\sum_{i=1}^{n}X_i^k}
Ak=n1i=1∑nXik
为样本的
k
k
k 阶原点矩(可以看到
k
=
1
k=1
k=1 时,相当于样本均值),通常用样本的
k
k
k阶原点矩来估计总体分布的
k
k
k 阶原点矩。
- k k k 阶样本中心矩
设
X
1
,
X
2
,
.
.
.
,
X
n
X_1,X_2,...,X_n
X1,X2,...,Xn 是总体
X
X
X 的一个简单随机样本,
X
‾
\overline X
X 为样本均值,称
M
k
=
1
n
∑
i
=
1
n
(
X
i
−
X
‾
)
k
M_k = \frac{1} {n} {\sum_{i=1}^{n}(X_i-\overline X)^k}
Mk=n1i=1∑n(Xi−X)k
为样本的
k
k
k 阶中心矩,通常用样本的
k
k
k 阶中心矩来估计总体分布的
k
k
k 阶中心矩。
其实当样本量足够大时, 1 / n 1/n 1/n 与 1 / ( n − 1 ) 1/(n-1) 1/(n−1) 近似于相等。
- 顺序统计量
设
X
1
,
X
2
,
.
.
.
,
X
n
X_1,X_2,...,X_n
X1,X2,...,Xn 是抽自总体
X
X
X 的样本,
x
1
,
x
2
,
.
.
.
,
x
n
x_1,x_2,...,x_n
x1,x2,...,xn 为样本观测值。将
x
1
,
x
2
,
.
.
.
,
x
n
x_1,x_2,...,x_n
x1,x2,...,xn 按照从小到大的顺序排列为
x
(
1
)
<
=
x
(
2
)
<
=
.
.
.
<
=
x
(
n
)
x_{(1)}<=x_{(2)}<=...<=x_{(n)}
x(1)<=x(2)<=...<=x(n)
当样本
X
1
,
X
2
,
.
.
.
,
X
n
X_1,X_2,...,X_n
X1,X2,...,Xn 取值
x
1
,
x
2
,
.
.
.
,
x
n
x_1,x_2,...,x_n
x1,x2,...,xn 时,定义
X
(
k
)
X_{(k)}
X(k) 取值
X
(
k
)
(
k
=
1
,
2
,
.
.
.
,
n
)
X_{(k)}(k=1,2,...,n)
X(k)(k=1,2,...,n),称
X
(
1
)
,
X
(
2
)
,
.
.
.
,
X
(
n
)
X_{(1)},X_{(2)},...,X_{(n)}
X(1),X(2),...,X(n) 为
X
1
,
X
2
,
.
.
.
,
X
n
X_1,X_2,...,X_n
X1,X2,...,Xn 的顺序统计量。
显然, X ( 1 ) = m i n X i X_{(1)} =min {X_i} X(1)=minXi 是样本观察中最小的一个,称为最小顺序统计量。 X ( n ) = m a x X i X_{(n)} =max {X_i} X(n)=maxXi 是样本观测值中取值最大的一个,成为最大顺序统计量。称 X ( r ) X_{(r)} X(r) 为第 r r r 个顺序统计量。
2. 描述性统计
2.1 集中趋势
数据的集中趋势,一般使用均值,众数,中位数来描述。
-
平均数:
是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。
-
中位数:
是指在一组数据,按顺序排列后,居于中间位置的数。中位数描述数据中心位置的数字特征,对于对称分布的数据,均值与中位数比较接近;对于偏态分布的数据,均值与中位数不同。中位数不受异常值的影响,具有稳健性。 -
众数:
就是一组数据中,出现次数最多的那个数(几个数) -
均值 vs 中位数 vs 众数
优点 | 缺点 | |
---|---|---|
均值 | 充分利用所有数据,适用性强 | 容易受极端值影响 |
中位数 | 不受极端值影响 | 缺乏敏感性 |
众数 | 不受极端值影响;当数据具有明显的集中趋势时,代表性好 | 缺乏唯一性 |
2.2 离散程度
- 标准差:
样本方差的开平方成为样本标准差。
- 方差:
用来计算每一个变量(观察值)与总体均数之间的差异。实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后,样本方差计算公式:
- 极差:
数据越分散,极差越大。
2.3 分布形态
-
离散变量与连续变量:
离散型随机变量是指其数值只能用自然数或整数单位计算的则为离散变量。例如, 班级人数,电脑台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得。
反之,在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,即可取无限个数值。例如,人体测量的身高,体重等。
-
**概率函数:**就是用函数的形式来表达概率。
(大量重复试验中出现的频率来估计概率,它约等于事件出现的频数除以重复试验的次数)。
P i = P ( X = a i ) ( i = 1 , 2 , 3 , 4 , 5 , 6 ) P_i = P(X=a_i)(i=1,2,3,4,5,6) Pi=P(X=ai)(i=1,2,3,4,5,6)
P(X=1)=1/6,这代表用概率函数的形式来表示,当随机变量X取值为1的概率为1/6,一次只能代表一个随机变量的取值。 (抛骰子游戏)
连续型随机变量的概率函数就叫做概率密度函数。
-
分布函数:
设X是一个随机变量,对任意的实数x,令
则称F(x)是随机变量X的分布函数(概率累积函数)。
密度函数与分布函数关系 -
偏度与峰度
偏度(skewness):也称为偏态,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。直观看来就是密度函数曲线尾部的相对长度。**偏度刻画的是分布函数(数据)的对称性。**关于均值对称的数据其偏度系数为0,右侧更分散的数据偏度系数为正,左侧更分散的数据偏度系数为负。
- 正态分布的偏度为0,两侧尾部长度对称。
- 左偏:
- 若以bs表示偏度。bs<0称分布具有负偏离,也称左偏态;
- 此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于与右边的尾部要长;
- 因为有少数变量值很小,使曲线左侧尾部拖得很长;
3.右偏:
- bs>0称分布具有正偏离,也称右偏态;
- 此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长;
- 因为有少数变量值很大,使曲线右侧尾部拖得很长;
**峰度(peakedness;kurtosis):**说明的是分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。峰度刻画的是分布函数的集中和分散程度。
参考
本打卡内容均来自于DataWhale,概率统计学习。