1. 统计学基础理论
1.1 参数估计;假设检验;置信区间;
值;p值
(参考链接:https://zhuanlan.zhihu.com/p/350759819)
1.1.1 参数估计:
参数是指用样本指标值(统计量)推断总体指标值(参数)。参数估计有点估计和区间估计两种方法。点估计使用相应的样本统计量直接作为其总体参数的估计值,样本统计量是指样本的函数,且此函数没有未知参数。如用 估计
、用 S 估计
等。区间估计是按预先给定的概率(1-
)所确定的包含未知总体参数的一个范围。该范围称为参数的可信区间或置信区间(confidence bound /confidence interval, Cl );(1-
)称为可信度或置信度,较小值为可信下限(lower limit ,L),较大值为可信上限(upper limit,U)
1.1.2 假设检验的基本原理:
从总体中随机抽样,由样本信息推断总体特征,除了参数估计方法,在实际中会产生这样的问题:某一样本均数是否来自于某已知均数的总体?两个不同样本均数是否来自均数不相等的总体?要想解决这类问题,就需要用到假设检验了。
假设检验过去称为显著性检验(significance test)。它是利用小概率反证法思想,从问题的对立面()出发间接判断要解决的问题(
:实际场景中倾向去证实的结论)是否成立。也就是说小概率事件是基本不可能发生的,在
成立的条件下计算检验统计量(test statistic),利用
当中的条件来进行计算,然后根据获取的P值来进行判断。
1.1.3 假设检验的步骤:
(1)建立检验假设,确定检验水准 。检验假设需要注意:
- 检验假设针对的是总体,而不是样本;
与
是相互关联、对立的假设,最后的统计推断结论根据
和
得出;
是原假设(无效假设),其假定通常是:某两个或多个总体参数相等,或两个总体参数之差等于0,或某资料服从某一特定分布(如正态分布、Poisson分布),或......无效等;
的内容直接反映了检验的单双侧。 若
为
>
或
<
,则此检验为单侧检验(one-side test),它不仅考虑是否有差异,而且还考虑差异的方向。单双侧的确定首先考虑专业知识,其次根据所要解决的问题来确定。若从专业角度看一种方法的结果不可能低于或高于另一种方法,即使提的问题为:两种方法的测定结果是否不同?此时仍然用单侧检验。一般认为,双侧检验较保守和稳妥,探索性研究多用双侧检验;而证实性研究多用单侧检验。
(2)计算检验统计量。
应根据变量或资料类型、设计方案、统计推断的目的、方法的适用条件等选择合适的检验统计量。注意,所有的检验统计量都是在成立的条件下计算出来的,而检验水准
就是拒绝
成立所会犯的错误的最大值。拒绝
所犯的错误会很小(后文会补充两类错误),属于小概率事件,所以,如果P值小于检验水准
,拒绝
是最好的选择。当然,有的假设检验方法不需要计算检验统计量,例如四格表资料的确切概率法。
(3)确定P值,作出推断结论。
P值得含义是指从规定得总体中随机抽样,抽得等于及大于或等于及小于现有样本获得的检验统计量的值的概率。根据查界值表获得的P值与给定的检验水准
进行比较,从而判断其是否为小概率事件来得出结论。一般而言,推断结论应该包含统计结论和专业结论两部分。统计结论只说明差异有无统计学意义(statistical significance)或无统计学意义,而不能说明专业上的差异大小。例如,若P ≤
,则结论为按所取的检验水准
,拒绝
,接受
,差异有统计学意义(统计结论)。可认为......不等或不同(专业结论)。此外,需要注意,差异有无统计意义是针对样本统计量和总体参数或两个、多个样本统计量而言;对于所要推断的两个总体参数而言,只能说是否不等或不同。
1.1.4 两类错误,值与
值:
-
第一类错误,拒绝了实际上成立的,为“弃真”的错误;
第二类错误,不拒绝实际上不成立的,为“存伪”的错误;
假设检验时,根据检验结果作出的判断,即拒绝或不拒绝
。
-
第一类错误(typeⅠerror),Ⅰ型错误,拒绝了实际上成立的
,即错误地判为有差别,这种弃真的错误称为Ⅰ型错误。其概率大小用即检验水准用
表示。
可取单尾也可取双尾。假设检验时可根据研究目的来确定其大小,一般取0.05或者0.01(有时为0.1),当拒绝
时则理论上理论100次检验中平均有5次或者1次发生这样的错误。
-
第二类错误(typeⅡ error)。Ⅱ型错误,接受了实际上不成立的H0 ,也就是错误地判为无差别,这类取伪的错误称为第二类错误。第二类错误的概率用
表示,
的大小很难确切估计。
-
当样本例数固定时,
愈小,
愈大;反之,
愈大,
愈小。因而可通过选定
控制
大小。要同时减小
和
,唯有增加样本例数。统计上将1-
称为检验效能或把握度(power of a test),即两个总体确有差别存在,而以
为检验水准,假设检验能发现它们有差别的能力。实际工作中应权衡两类错误中哪一个重要以选择检验水准的大小。
1.1.5 P值、统计学意义、显著性:
定义:p值是在假定原假设为真时,得到与样本相同或则更极端的结果的概率。
p值是基于特定假设和实际样本之间进行统计推断的一个工具。
统计学意义与显著性,参考链接:统计学中的P值与显著性的意义 - 麻辣咸鱼 - 博客园
结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。专业上,p值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。p值是将观察结果认为有效即具有总体代表性的犯错概率。如p=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联(变量之间的独立性成立),我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果。(这并不是说如果变量间存在关联,我们可得到5%或95%次数的相同结果,当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效力有关。)在许多研究领域,0.05的p值通常被认为是可接受错误的边界水平。
如何判定结果具有真实的显著性
在最后结论中判断什么样的显著性水平具有统计学意义,不可避免地带有武断性。换句话说,认为结果无效而被拒绝接受的水平的选择具有武断性。实践中,最后的决定通常依赖于数据集比较和分析过程中结果是先验性还是仅仅为均数之间的两两比较,依赖于总体数据集里结论一致的支持性证据的数量,依赖于以往该研究领域的惯例。通常,许多的科学领域中产生p值的结果≤0.05被认为是统计学意义的边界线,但是这显著性水平还包含了相当高的犯错可能性。结果0.05≥p>0.01被认为是具有统计学意义,而0.01≥p≥0.001被认为具有高度统计学意义。但要注意这种分类仅仅是研究基础上非正规的判断常规。
所有的检验统计都是正态分布的吗?
并不完全如此,但大多数检验都直接或间接与之有关,可以从正态分布中推导出来,如t检验、f检验或卡方检验。这些检验一般都要求:所分析变量在总体中呈正态分布,即满足所谓的正态假设。许多观察变量的确是呈正态分布的,这也是正态分布是现实世界的基本特征的原因。当人们用在正态分布基础上建立的检验分析非正态分布变量的数据时问题就产生了,(参阅非参数和方差分析的正态性检验)。这种条件下有两种方法:一是用替代的非参数检验(即无分布性检验),但这种方法不方便,因为从它所提供的结论形式看,这种方法统计效率低下、不灵活。另一种方法是:当确定样本量足够大的情况下,通常还是可以使用基于正态分布前提下的检验。后一种方法是基于一个相当重要的原则产生的,该原则对正态方程基础上的总体检验有极其重要的作用。即,随着样本量的增加,样本分布形状趋于正态,即使所研究的变量分布并不呈正态。
注:后续还会继续进行补充!还请收藏关注!