PART 4 统计分析——目录
PART 4 统计分析
1、抽样估计
【领会】
随机试验、随机事件、随机变量的概念;
总体与样本的概念;
抽样估计的理论基础;
正态分布及三大分布的函数形式和图像形式;
抽样的多种组织形式;
确定必要样本容量的原因;
大数定律与中心极限定理的意义与应用。
【熟知】
随机事件的概率;
抽样平均误差的概念与数学性质;
点估计与区间估计方法的特点与优缺点;
全体总体与样本总体;
参数和统计量;
重复抽样与不重复抽样;
抽样误差的概念对总体平均数、总体成数和总体方差的区间估计方法 ;
必要样本容量的影响因素。
【应用】
随机变量及其概率分布;
抽样平均误差在实际数据分析中的计算方法。
1.1、领会内容
1.1.1、随机试验&随机事件&随机变量
-
随机试验:具有随机性质的试验,可以描述其可能的结果,但无法预测具体结果。
-
随机事件:随机试验中的某一结果,例如掷一枚硬币,正面朝上或反面朝上的事件。
-
随机变量:随机试验中可以用数值表示的某个随机事件的取值,例如掷骰子得到的点数。
1.1.2、总体&样本
总体是指所研究的全部个体或事物的集合,样本是从总体中抽取的一部分个体或事物的集合。
1.1.3、抽样估计
抽样估计是一种通过从总体中随机抽取样本来估计总体特征的方法。其理论基础是概率论和数理统计学。
1.1.4、正态分布及三大分布的函数形式和图像形式;
正态分布是一个连续的概率分布,以钟形曲线表示;三大分布指二项分布、泊松分布和指数分布,其函数形式和图像形式也分别不同。
1.1.5、抽样的多种组织形式
抽样可以采用随机抽样、系统抽样、分层抽样等多种组织形式。
1.1.6、确定必要样本容量原因
为了保证抽样估计的精度,需要确定必要的样本容量,这通常由样本均值的标准误差、置信水平和置信区间的宽度来决定。
1.1.7、大数定律&中心极限定理
大数定律是指随着试验次数的增加,样本均值越来越接近总体均值;中心极限定理则说明在一定条件下,样本均值的分布趋近于正态分布。这些定理在抽样估计和统计推断中具有重要的应用。
1.2、熟知内容
1.2.1、随机事件的概率
随机事件的概率是指在某个随机试验中,某个事件发生的可能性大小。概率的取值范围是0到1之间,0表示不可能发生,1表示一定会发生。使用数学符号表示为 P(A)。
概率的计算公式为:P(A) = 发生A的情况数 / 所有情况数
其中,“发生A的情况数”指的是满足事件A的条件的情况个数,“所有情况数”指的是随机试验中所有可能出现的情况个数。
例如,掷一枚骰子,事件A为掷出3点的概率,发生A的情况数为1(即掷出3点),所有情况数为6(骰子的6个面),因此P(A) = 1/6 = 0.1667。
1.2.2、抽样平均误差的概念与数学性质
抽样平均误差(Sample Mean Error,SME)是用样本均值估计总体均值时所引入的误差,是样本均值与总体均值之间的差异。其计算公式为:
SME = x̄ - μ 其中,x̄表示样本均值,μ表示总体均值。
抽样平均误差的数学性质如下:
- 抽样平均误差的期望为零。
E(SME) = E(x̄ - μ) = E(x̄) - E(μ) = μ - μ = 0
- 抽样平均误差的方差等于总体方差除以样本容量。
Var(SME) = Var(x̄ - μ) = Var(x̄) + Var(μ) - 2Cov(x̄, μ) = σ²/n
其中,Var(x̄)表示样本均值的方差,Var(μ)表示总体均值的方差,Cov(x̄, μ)表示样本均值与总体均值的协方差,σ²表示总体方差,n表示样本容量。
- 抽样平均误差与样本容量成反比,即样本容量越大,抽样平均误差越小。
- 抽样平均误差的分布近似服从正态分布,特别是对于足够大的样本容量,根据中心极限定理可以近似为正态分布。
1.2.3、点估计与区间估计方法的特点与优缺点
点估计和区间估计是统计学中两种常用的参数估计方法,它们各有特点和优缺点,具体如下:
类别 | 点估计 | 区间估计 |
---|---|---|
特点 | 点估计是通过对样本统计量进行计算,得出总体参数的估计值,并将其表示为一个点。这种方法简单、直观,易于理解和使用 | 区间估计是通过样本统计量得到参数区间范围的估计方法,表示某个参数的取值可能在一定的区间范围内,而不只是单个点 |
优点 | 点估计方法计算简单,结果易于解释和使用。对于样本量较大的情况下,点估计的精度也较高 | 区间估计考虑了样本的误差和总体参数分布的不确定性,因此其估计结果更加准确和可靠 |
缺点 | 点估计没有考虑抽样误差和总体参数的分布情况,因此其估计结果可能存在偏差,精度较低 | 区间估计通常需要更多的统计计算,对于样本量较小的情况下,估计结果的置信度较低 |
综上所述,点估计和区间估计各有优缺点,根据不同的应用场景和数据情况选取合适的估计方法,能够更好地解决实际问题。
1.2.4、全体总体与样本总体
全体总体是指一个完整的、包含所有可能的个体的总体,而样本总体则是指从全体总体中抽取出来的一部分。在统计学中,我们通常使用样本总体来研究全体总体的性质和特征,因为从全体总体中抽取一个较小的样本总体进行分析更为方便和经济。因此,样本总体的选取和抽样方法很重要,需要尽可能地保证样本总体的代表性和可靠性。通过对样本总体的研究和分析,我们可以推断出全体总体的性质和特征。
1.2.5、参数和统计量
参数和统计量是统计学中的两个重要概念。
参数是用来描述总体特征的数值,例如总体均值、总体方差等等。总体是指研究对象的全部个体或全部物品,但是总体往往很大,难以获取全部数据,因此我们只能通过从总体中抽取一部分个体或物品,通过对这些个体或物品数据的分析来推断总体的特征。这部分个体或物品称为样本。通过对样本数据的分析,我们可以得到很多统计量,比如样本均值、样本标准差等等。
统计量是用来描述样本特征的数值。在推断总体特征时,我们通常会使用统计量来近似描述总体特征。因此,我们需要通过样本数据得到关于总体的信息,这个过程就是统计推断。通过统计推断可以得到总体的参数估计,比如总体均值的估计、总体方差的估计等等。
1.2.6、重复抽样与不重复抽样
重复抽样是指从总体中选择一个样本后,再将所选中的样本放回总体中,使得每个样本被选中的概率相同,然后再进行下一次的抽样。在重复抽样中,可能会有同一个样本被多次选择的情况出现。
不重复抽样是指从总体中选择一个样本后不将其放回总体中,而是将其从总体中剔除,使得后续的抽样不会再选择已经被选中的样本。在不重复抽样中,每个样本只会被选择一次。
1.2.7、抽样误差的概念
抽样误差是指从样本中得出的统计数据与总体真实值之间的差异。它是由于研究者采用抽样方法来代表总体时所带来的不确定性,也称为抽样偏差。
抽样误差的大小取决于多种因素,例如样本大小、样本选取方式、总体变异性等。当样本数量越大、样本选取方式越科学、总体变异性越小时,抽样误差也会越小。抽样误差的大小可以用统计学方法来估计和控制,例如计算置信区间和进行假设检验等。
1.2.8、对总体平均数、总体成数和总体方差的区间估计方法
对于总体平均数、总体成数和总体方差的区间估计方法,通常使用以下方法:
- 总体平均数的区间估计:使用样本平均数和标准误差(标准差除以样本大小的平方根)的乘积来构建置信区间,其中,置信水平和自由度决定了置信区间的宽度。如果总体的分布未知,则可以使用t分布来计算置信区间。
- 总体成数的区间估计:使用样本成数和二项分布的标准误差来构建置信区间。与总体平均数不同,总体成数的置信区间宽度不受自由度的影响,而是取决于置信水平和样本大小。
- 总体方差的区间估计:使用卡方分布来计算总体方差的置信区间。需要知道样本方差和自由度,自由度等于样本大小减1。置信区间的宽度取决于置信水平和自由度。
以上这些方法可以应用于大多数情况下的总体估计,但也有一些特例,比如小样本问题和非正态分布的问题,需要使用不同的方法进行估计。
1.2.9、确定必要样本容量的影响因素。
确定必要样本容量的影响因素包括以下几个方面:
- 研究目的:研究目的不同,所需样本容量也不同。比如,如果研究的是一个稀有疾病,那么所需的样本容量就要比研究常见疾病所需的样本容量更大。
- 效应大小:效应大小指的是研究中所关注的变量之间的差异或关联程度的大小。如果效应大小越小,那么所需的样本容量就越大。
- 显著性水平:研究中通常会设定一个显著性水平,用于确定研究结果是否具有统计学意义。如果所设显著性水平越小,那么所需的样本容量也就越大。
- 统计方法:不同的统计方法所需的样本容量也不同。某些统计方法可能需要更大的样本容量才能获得可靠的结果。
- 数据收集方式:数据收集方式也会影响所需的样本容量。如果数据的收集方式比较复杂或难以获取,那么所需的样本容量就可能会更大。
1.3、应用内容
1.3.1、随机变量及其概率分布
随机变量是指一个随机试验中的结果,它可以是一个数值、一个向量、一个函数等等。随机变量可以分为离散型和连续型两类。
类型 | 内容 |
---|---|
离散型随机变量 | 取值是有限个或者可数的无限个。例如,掷骰子得到的点数、抽取球的颜色等等都是离散型随机变量。 |
连续型随机变量 | 取值是在某个区间内的任意实数。例如,测量某人的身高、某地区的气温等等都是连续型随机变量。 |
每个随机变量都有一个概率分布,它描述了随机变量取某个值的可能性大小。概率分布可以分为离散概率分布和连续概率分布两类。
对于离散概率分布,它可以用**概率质量函数(Probability Mass Function, PMF)**来描述,即:
P ( X = x i ) = p i , i = 1 , 2 , ⋯ , n P(X=x_i) = p_i, \quad i=1,2,\cdots,n P(X=xi)=pi,i=1,2,⋯,n
其中, X X X为随机变量, x i x_i xi 表示随机变量 X X X 取值为 x i x_i xi 的概率, p i p_i pi 表示随机变量 X X X 取值为 x i x_i xi 的概率。
对于连续概率分布,它可以用**概率密度函数(Probability Density Function, PDF)**描述,即:
f X ( x ) f_X(x) fX(x)
其中, X X X为随机变量, f X ( x ) f_X(x) fX(x) 表示随机变量 X X X 在 x x x 处取值的概率密度。
无论是离散概率分布还是连续概率分布,它们都必须满足以下条件:
∑ i = 1 n p i = 1 或 ∫ − ∞ + ∞ f X ( x ) d x = 1 \sum_{i=1}^np_i = 1 \quad\text{或}\quad \int_{-\infty}^{+\infty}f_X(x)dx = 1 i=1∑npi=1或∫−∞+∞fX(x)dx=1
这个条件保证了所有可能性的总和为 1。
在实际应用中,我们可以根据问题的具体场景和需要选择合适的概率分布来描述随机变量的概率分布。常见的概率分布包括二项分布、正态分布、泊松分布、均匀分布等等。
1.3.2、抽样平均误差的计算方法
抽样平均误差(Sampling Mean Error)是指由于样本选取的随机性,导致样本平均值与总体平均值之间存在偏差的情况。在实际数据分析中,计算抽样平均误差的方法如下:
- 首先从总体中随机抽取一定数量的样本,然后计算出样本的平均值。
- 接着,计算出总体的平均值。
- 最后,用样本平均值减去总体平均值,即可得到抽样平均误差。
公式如下:
Sampling Mean Error = Sample Mean - Population Mean
其中,样本平均值可以通过样本的加权平均值来计算,总体平均值可以通过总体的加权平均值来计算。
需要注意的是,抽样平均误差大小与样本的大小、样本的选取方式、总体的分布等因素都有关系。因此,在进行数据分析时,需要综合考虑多种因素来评估抽样平均误差。
2、假设检验
【领会】
假设检验的基本概念;
其基本思想在数据分析中的作用;
假设检验的基本步骤;
假设检验与区间估计的联系;
假设检验中的两类错误。
【熟知】
检验统计量、显著性水平及对应临界值(Critical Value)的基本定义;
P 值的含义及计算;
如何利用 P 值进行检验;
z 检验统计量;
t 检验统计量;
F 检验统计量;
χ2检验统计量的函数形式和检验步骤。
【应用】
实现单样本 t 检验;
两独立样本 t 检验的步骤和检验中使用的统计量与原假设;
两种检验应用的数据分析场景。
2.1、领会内容
2.1.1、假设检验的基本概念
假设检验是一种用于检验某个假设是否成立的统计方法。具体地说,假设检验是在给定样本数据的条件下,针对总体参数提出一个关于总体参数的假设,然后根据样本数据来决定是否拒绝这个假设。
假设检验通常分为两类,即参数假设检验和非参数假设检验。参数假设检验是指当总体分布已知时,对于总体参数的假设进行检验;非参数假设检验是指当总体分布未知时,对于某些统计量的假设进行检验。
2.1.2、假设检验的作用
通过假设检验,我们可以对某个假设进行科学的检验,从而评估该假设的合理性。假设检验也是进行统计推断(如总体均值、总体比例等)的一种重要方法。
2.1.3、假设检验基本步骤
1. 设置假设
在开始进行假设检验之前,需要确定待检验的假设。通常将待检验的假设称为原假设(H0),将与原假设相反的假设称为备择假设(H1)。
2. 选择检验统计量
在进行假设检验之前,需要选择一个适当的检验统计量以评估原假设的合理性。检验统计量是样本观察值的函数,通常是样本均值、样本比例等。
3. 设定显著性水平
显著性水平是指在原假设成立的前提下,出现拒绝原假设的概率。通常将显著性水平设为0.05或0.01。
4. 计算p值
p值是指在原假设成立的前提下,观察到检验统计量比当前样本数据更极端的概率。p值越小,说明拒绝原假设的证据越充分。
5. 判断结论
根据p值与显著性水平的比较,判断是否拒绝原假设。如果p值小于显著性水平,就拒绝原假设;如果p值大于等于显著性水平,则不能拒绝原假设。
2.1.4、假设检验与区间估计
区间估计是另一种常用的统计推断方法,它通过构造一个置信区间来估计总体参数的范围。与假设检验不同,区间估计并不是通过判断是否拒绝原假设来达到推断的目的,而是通过对总体参数的范围进行限制来实现推断。不过,假设检验和区间估计都是统计推断的方法,可以相互印证。例如,如果假设检验拒绝了原假设,区间估计的置信区间也很可能不包含原假设的值。反之,如果区间估计的置信区间不包含原假设的值,很可能假设检验也会拒绝原假设。
2.1.5、假设检验中的两类错误
第一类错误是指原假设成立的情况下,拒绝原假设的概率;
第二类错误是指备择假设成立的情况下,接受原假设的概率。
2.2、熟知内容
2.2.1、检验统计量&显著性水平&临界值
名词 | 基本定义 |
---|---|
检验统计量 | 用于判断某个假设是否成立的数值指标,通常是样本统计量与假设参数之间的差异。 |
显著性水平 | 在进行假设检验时所设置的一种标准,通常为0.05或0.01,表示在该水平下,拒绝原假设的概率不超过这个数值。 |
临界值(Critical Value) | 在假设检验中使用的某个统计量的值,超过这个值则拒绝原假设,否则接受原假设。临界值的大小取决于显著性水平和自由度等参数。 |
2.2.2、P 值的含义及计算
P值是用于判断假设检验中结果是否显著的一个概率值。通常,P值小于显著性水平(比如0.05或0.01)时,我们会拒绝原假设,即认为结果是显著的;而P值大于显著性水平时,我们会接受原假设,即认为结果不显著。
P值的计算方式取决于具体的统计检验方法,但是通常需要计算给定样本结果的统计量(比如t值、z值、F值、卡方值等)在假设下出现的概率。具体计算方法可以使用统计软件来进行,比如SPSS、R等。
以t检验为例,假设我们要判断一个样本的均值是否等于一个已知值,我们可以计算出它的t值,然后使用t分布表来查找在给定自由度和显著性水平下,t值对应的双侧P值。如果P值小于设定的显著性水平,则拒绝原假设,认为样本均值与已知值不同。如果P值大于显著性水平,则接受原假设,认为样本均值与已知值没有显著差异。
2.2.3、如何利用 P 值进行检验
利用P值进行检验通常需要以下步骤:
- 提出假设。需要提出一个有明确结论可得的假设,例如“两组样本均值相等”、“一个模型的拟合没有显著差异”等。
- 选择检验方法。根据所研究问题的特点和数据类型,选择合适的检验方法。
- 统计计算。通过统计计算得到对应的统计量和P值。比如,通过z检验得到z值和P值,通过t检验得到t值和P值等。
- 显著性水平设定。根据实际需求,设定显著性水平,通常为0.05或0.01。
- 判断P值大小。如果P值小于设定的显著性水平,则拒绝原假设;如果P值大于设定的显著性水平,则接受原假设。
- 得出结论。根据判断结果,得出最终结论。如果拒绝原假设,则认为数据支持备选假设;如果接受原假设,则认为数据不支持备选假设。
需要注意的是,P值并不是绝对判断标准,通常需要综合考虑实际研究背景、样本大小、效应大小等因素。而且,即使P值小于设定显著性水平,也不能说明效应大小或者结果的重要程度。
2.2.4、z 检验统计量
z检验是一种常用的统计方法,它可以检验一个样本的平均值是否与一个已知的总体平均值相等。z检验的统计量是z值,它的计算公式为:
z = (x - μ) / (σ / √n)
其中,x表示样本平均值,μ表示总体平均值,σ表示总体标准差,n表示样本大小。可以看到,z值的计算需要知道总体标准差,但在实际研究中,通常不能准确地知道总体标准差,因此可以通过样本标准差s来估计σ,从而得到t检验的统计量。
对于z检验而言,显著性水平通常设定为0.05或0.01。在进行假设检验时,如果计算得到的z值的绝对值大于对应显著性水平下的临界值,就可以拒绝原假设,认为样本均值与总体均值显著不同;否则,接受原假设。
2.2.5、t 检验统计量
t检验是一种常用的统计方法,用于检验一个样本的平均值是否与一个已知的总体平均值相等。t检验的统计量是t值,它的计算公式为:
t = (x - μ) / (s / √n)
其中,x表示样本平均值,μ表示总体平均值,s表示样本标准差,n表示样本大小。可以看到,t值的计算只需要样本标准差s,因此通常可以使用样本标准差来近似估计总体标准差,从而得到t检验的统计量。
在进行假设检验时,显著性水平通常设定为0.05或0.01。根据t分布的特点,不同样本大小和显著性水平下对应的t值是不同的,可以在t分布表中查找。如果计算得到的t值的绝对值大于对应显著性水平下的临界值,就可以拒绝原假设,认为样本均值与总体均值显著不同;否则,接受原假设。
需要注意的是,当样本大小较大时(一般大于30),t分布近似于正态分布,此时可以使用z检验来代替t检验。
2.2.6、F 检验统计量
F检验是一种常用的统计方法,用于检验两个或多个样本的方差是否相等。F检验的统计量是F值,其计算公式为:
F = s1^2 / s2^2
其中,s1和s2分别表示两个样本的方差,F值越大,表示两个样本的方差差异越大。
在进行假设检验时,通常将原假设设为“两个样本的方差相等”,备择假设设为“两个样本的方差不相等”。通过计算F值,可以在F分布表中查找其对应的显著性水平下的临界值。如果计算得到的F值大于临界值,则可以拒绝原假设,认为两个样本的方差不相等;否则,接受原假设。
需要注意的是,在F检验中,样本大小和样本方差的比值对F值的影响比较大,因此要注意样本大小和方差的选择。
2.2.7、χ2检验统计量
χ2检验(卡方检验)是一种常用的假设检验方法,主要用于检验两个或多个分类变量之间是否存在关联性。χ2检验的统计量是χ2值,其计算公式为:
χ2 = ∑(观测值-期望值)^2 / 期望值
其中,观测值是指实际观测到的各组别数据个数,期望值是指在假设下预期的各组别数据个数。χ2值越大,表示观测值与期望值之间的差异越大,就越有可能拒绝原假设。
χ2检验的步骤如下:
- 建立假设:根据实际问题建立原假设和备择假设,如原假设为两个分类变量之间独立,备择假设为两个分类变量之间存在关联性。
- 计算期望值:根据原假设计算出各组别的期望值。
- 计算χ2值:根据计算公式计算出χ2值。
- 确定自由度和显著性水平:自由度的计算方法为(k-1)*(m-1),其中k是分类变量的组数,m是变量的分类数;显著性水平通常为0.05或0.01。
- 查找χ2分布表:根据自由度和显著性水平,在χ2分布表中查找相应的临界值。
- 判断结论:如果计算得到的χ2值大于临界值,则拒绝原假设,认为两个分类变量之间存在关联性;否则,接受原假设,认为两个分类变量之间独立。
需要注意的是,χ2检验的前提是各组别之间是互相独立的,而且期望值必须大于5,如果期望值小于5,可以采用精确性检验或者蒙特卡洛模拟方法。此外,如果观测值中有连续性变量,可以采用卡方分箱法将其离散化后进行χ2检验。
2.3、应用内容
2.3.1、单样本 t 检验
单样本 t 检验是一种常见的统计推断方法,用于判断单个样本的平均数是否与一个已知的理论值相等。下面是单样本 t 检验的实现步骤:
- 确定假设:提出关于总体的两个假设,即零假设和备择假设。零假设通常是平均数与理论值相等,备择假设通常是平均数与理论值不相等。
- 收集样本数据:从总体中抽取一个样本,并记录样本的观测值和样本大小。
- 计算样本均值和标准差:使用样本数据计算样本均值和标准差。
- 计算 t 统计量:使用样本均值、理论值、样本