关闭

基本概念

341人阅读 评论(0) 收藏 举报
分类:

随机变量:

统计中用随机变量X的取值范围和其取值概率的序列来描述这个随机变量,称之为随机变量X的概率分布。


样本:

样本是总体的一个子集,它的大小称为样本容量。一次采样就是从总体中提取容量为n的样本随机过程,注意这是一个样本。


总体分布:

总体中随机变量X的取值范围及概率


样本分布Sample distribution

样本中随机变量X的取值范围及概率。它不同于下面要介绍的抽样分布,抽样分布是X的统计量在不同的抽样中的分布。例如总体为全校男生的身高X,总体分布指全校男生身高的范围和取各个值的概率(概率密度),样本分布是指一次抽样比如100个男生中,身高的范围和取各个值的概率,抽样分布一定要先确定统计量,比如平均身高,平均身高的抽样分布就是抽取100个男生的不同的抽样组合,每一个抽样都会得到一个平均身高,所有样本的平均身高的范围和取各个值的概率就是平均身高的抽样分布。


描述统计和推断统计:

描述统计用于对已观察到的数据的精确描述,获取样本数据统计量,例如均值、标准差、范围等

推断统计用已经观察到的样本来描述和推理总体的相关情况,例如推测总体的均值、标准差等


抽样分布Sampling Distribution

对一个总体进行m次抽样,每次抽样的样本容量为n,对每个样本可以计算该样本的统计量,如均值、方差、容量等,m个样本的某一个统计量的值的分布都是抽样分布,比如m个样本的均值的分布。注意不要把样本数量m和样本容量n搞混了。

抽样分布也称统计量分布、随机变量函数分布。以样本平均数为例,它是总体平均数的一个估计量,如果按照相同的样本容量,相同的抽样方式,反复地抽取样本,每次可以计算出一个平均数,所有可能样本的平均数所形成的分布,就是样本平均数的抽样分布。因为不同的抽样,会得到不同的样本均值,因此样本均值是一个随机变量。

当样本容量为n时,样本均值的期望值等于总体均值,样本均值的方差等于总体方差除以n。(忽略重复抽样和不重复抽样的差异)

如果原有总体上正态分布,那么,无论样本容量大小,样本均值的抽样分布都服从正态分布。

如果原有总体非正态分布,就要看样本容量大小。随着样本容量增大(通常要求大于等于30),不论原来的总体是否服从正态分布,样本均值的抽样分布都将趋于正态分布(中心极限定理)。


样本比例:

指样本中具有某种特征的元素所占的比例,也是一个随机变量。在大样本情况下,

样本比例p的数学期望等于总体比例P

样本比例的方差等于P(1-P)/n


二项分布:

是一个离散分布。在n次实验中,每次实验只能取两个结果中的一个,有x次成功,成功的概率为p,二项分布就是x取各种值0-n的概率。当n很大,即np>5 并且 n(1-p)>5时,x近似服从均值μ=np, 方差=npq的正态分布


参数:

用于对总体的描述,推断统计就是推测出这些参数,例如总体的均值就是一个参数。注意样本是没有参数的,样本的均值是一个已知观察值


参数估计:

又分为点估计和置信区间估计,点估计确定总体参数最可能的值,区间估计确定总体参数在一个区间内的概率


中心极限定理:

就是当样本容量n足够大时,样本的均值近似正态分布。注意这里也是抽样分布。该定理表明,当样本容量n较大时,不管总体分布如何,样本均值近似服从正态分布。样本容量的多少取决于总体分布的形状,如果总体分布是对称的,则样本容量为5就可以了,否则,需要样本容量50以上。


自由度:

是指数据提供的信息量,你可以“消耗”这些信息来评估未知总体参数的值和变化(如方差)。自由度由样本的容量和总体模型的参数个数决定。增加样本容量会增加自由度,增加模型的参数(例如增加回归模型中的项的个数)会消耗数据的自由度,从而减少用于评估总体参数的自由度。如果模型的参数个数大于数据的自由度,会使对模型参数的估计不可靠。例如,使用1-sample t-test 估计总体的均值,因为只有一个参数,而样本容量为n,对参数的估计消耗一个自由度,剩下的n-1个自由度用于估计参数的变化。因此1-sample t-test 使用n-1个自由度的t分布。

另外,自由度也可以用于刻画t分布、F分布、chi-square分布的形状。


error:

反映了函数、公式、统计不能完全解释或对理论值/真值建模的程度,也就是真值和估计值的差

1类错误:拒真

2类错误:接受假


方差Variance:σ² or Var(X) 和标准差Standard deviation:σ,

反映组内个体间的离散程度。如下公式用于计算一组确定的观测值的标准差

标准离差率Coefficient of Variance:

又称为变化系数或标准差系数,计算公式如下

标准离差率是一个相对指标,反映决策方案的风险程度。方差和标准差作为绝对数,只适用于期望值相同的决策方案风险程度的比较。对于期望值不同的决策方案,评价和比较其各自的风险程度只能借助于标准离差率这一相对数值。在期望值不同的情况下,标准离差率越大,风险越大;反之,标准离差率越小,风险越小。


样本标准差:

在真实世界中,找到一个总体的真实的标准差是不现实的。大多数情况下,总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的



标准误(standard error)

即样本统计量的标准差(standard deviation),是描述对应的样本统计量抽样分布的离散程度及衡量对应样本统计量抽样误差大小的尺度。注意:标准误是样本统计量(针对一个样本算出来的统计量)的标准差,而不是样本的标准差。样本均值是总体均值的无偏估计,但是,来自同一总体的不同样本可能有不同的均值,假设可以从总体中随机选取数量无限的容量相同的样本,每个样本可以有一个样本均值,可以将无限多个样本均值组成一个总体,该总体的标准差即为样本均值的标准误差。


样本均值的标准误standard error of the mean, SEM) 符号表示:

the standard deviation of the sample distribution is called the standard error of mean


如果已知母体标准差(σ),那么抽取无限多份大小为 n (n为样本容量)的样本,每个样本各有一个平均值,所有这个大小的样本之平均值的标准差可证明为(注意!不是一份样本里观察值的标准差(那是下面公式里的{\displaystyle s})):


但由于通常σ为未知,此时可以用研究中取得的一份样本的标准差 (S) 来估计



Sampling Distribution
1
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:3023次
    • 积分:69
    • 等级:
    • 排名:千里之外
    • 原创:4篇
    • 转载:0篇
    • 译文:0篇
    • 评论:0条
    文章存档