常用的统计检验方法(自学使用,侵权立删)

引子:相关性和显著性的关系

“我的数据通过了显著性检验,但相关系数低,应该怎么解释啊?”

  • P值,也就是Sig值或显著性值。如果P值小于0.01即说明某件事情的发生至少有99%的把握,如果P值小于0.05(并且大于0.01)则说明某件事情的发生至少有95%的把握。当P<0.01或P<0.05,则为说明水平显著。
  • 相关系数,是研究变量之间线性相关(或非线性相关)程度的量,用于说明两个变量之间是否存在相关关系,以及相关关系的紧密程度。分为pearson相关系数、Spearman相关系数。一般相关系数在0.7以上说明关系非常紧密;0.4~0.7之间说明关系紧密;0.2~0.4说明关系一般。

显著性回答的问题是他们之间是否有关系,说明得到的结果是不是偶然因素导致的(具有统计学意义);相关系数回答的问题是相关程度强弱。

假如说我得到”P<0.05,相关系数 R=0.279”,意味着二者之间确实(P<0.05)存在相关关系,而相关性为0.279。

而如果“P>0.05 相关系数R=0.799”,则意味着二者之间相关性很强(R=0.799),而这个高相关的结果可能是偶然因素导致的,即不具有统计学意义。

下面我们来谈一谈显著性检验,也就是我们常说的统计假设检验,对了补充一点:论文中做显著性检验前最好写要写上原假设与备择假设 

Topic1:显著性检验

首先介绍参数检验与非参数检验的概念

参数检验

关键词:分布已知、较大样本、统计量、定性数据

全称为参数假设检验,是对参数平均值、方差进行的统计检验。参数检验是推断统计的重要组成部分。当总体分布已知,根据样本数据对总体分布的统计参数进行推断

非参数检验

关键词:分布未知、较小样本、定类数据(对数据进行排序等)

非参数检验是在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为“非参数”检验

当然在做这些检验之前往往需要做一些其它工作,来选择上面提到的某个检验方法

前提工作

正态性检验

         在统计学中,正态检验主要用于检验一个数据集是否服从正态分布。

        比如常用的参数检验t检验方差分析(ANOVA)等都有一个共同的前提条件(应该说之一吧):样本数据必须服从正态分布,即样本数据必须来源于一个正态分布的总体,若样本数据不服从正态分布,就不能用以上参数检验对数据进行分析,而应该使用非参数检验方法(如卡方检验置换检验等)。

到此为止废话有点多了,下面回归正题,由于正态性检验比较常见,不多赘述。

        给出正态性检验建议:注意不同样本容量下不同方法的适用性,如果样本量大于50,则应该使用Kolmogorov-Smirnov检验结果,反之则使用Shapro-Wilk检验的结果

常见可视化:

频率频数直方图

经验累计概率图

 QQ图

方差齐检验

         介绍方差齐检验之前,我们顺便提一嘴上文的方差分析     

        ANOVA(方差分析)是一种统计方法,用于检验两组或两组以上(通常是三组及以上)的样本均值是否存在显著差异。它可以帮助我们了解不同组之间的变量是否对结果变量有显著影响。ANOVA按照因素的数量可以分为单因素ANOVA(One-Way ANOVA)和两因素ANOVA(Two-Way ANOVA)


举个例子,如果你想比较不同学习方法(自变量)对学生考试成绩(因变量)的影响,并且有三种或三种以上的学习方法,那么你可以使用单因素ANOVA;当你不仅想比较不同的学习方法对学生考试成绩的影响,还想看看学生的性别(第二个自变量)是否也会影响考试成绩,以及学习方法和性别之间是否存在交互作用,这时就可以使用两因素ANOVA。

当然方差分析的适用条件如下:

  • 各组的样本数据应服从正态分布。
  • 各组的方差应相等(方差齐性)。
  • 观察值应独立。

        OK回归正题,方差齐性要求各样本的总体有着相同的方差,也即总体的分布一致。样本之间的方差齐性主要依靠假设检验来判断,在进行独立样本t检验和方差分析时,与数据不满足正态性相比,方差不齐对结论的影响会更大。常见方差齐性检验的方法有我们在数理统计中接触到的F检验、以及Bartlett法、Hartley法等等

常见方法的注意事项

        F检验、Bartlett法、Hartley法、Cochran'C法和Levene法五种检验方法中,前四种方法要求各组资料服从正态分布;Hartley法和Cochran'C法还要求各组间样本量相等;

        F检验只能适用于两组之间方差齐性检验,Bartlett法、Hartley法、Cochran'C法和Levene法既适合两组之间也适合多组之间方差齐性检验。

        Levene法对组间样本量、正态性均无特殊要求,应用范围最为广泛。SAS、SPSS、jamovi等软件都默认采用Levene法。

常用的显著性检验方法

首先区分一下(定)计量、计数、等级资料

参数检验:t检验

前提:定量、正态、方差齐、两组及以下

常用t检验分类

(1) 单样本t检验

单样本T检验用于比较一组数据与一个特定数值之间的差异情况。

比如,某公司用五级李克量表的调查问卷进行员工满意度调查,其中‘4分’代表满意,分析人员可通过单样本t检验了解员工总体满意程度与“满意”(4)之间是否有明显差异。

(2)独立样本T检验(T检验)

独立样本T检验用于分析定类数据(X)与定量数据(Y)之间的差异情况。

独立样本T检验除了需要服从正态分布、还要求两组样本的总体方差相等。当数据不服从正态分布或方差不齐时,则考虑使用非参数检验。

案例:比较男生与女生的专业和职业任职得分的均值是否存在显著差异,可采用独立样本T检验进行分析。

(3)配对样本T检验

用于分析配对定量数据之间的差异对比关系。与独立样本t检验相比,配对样本T检验要求样本是配对的。两个样本的样本量要相同;样本先后的顺序是一一对应的。

案例:比较在两种背景情况下(有广告和无广告);样本的购买意愿是否有着明显的差异性。通过两组数据的对比分析,判断背景音乐是否会影响消费行为。

参数检验:方差分析

前提:定量、正态、方差齐、多组

        前面已经啰嗦过了

非参数检验:卡方检验

前提:主要为定数场景、不管分布

        卡方检验最常见的用途就是考察某无序分类变量各水平在两组或多组间的分布是否一致实际上,除了这个用途之外.卡方检验还有更广泛的应用。具体而言,其用途主要包括以下几个方面:

  (1)检验某个连续变量的分布是否与某种理论分布相一致。如是否符合正态分布、是否服从均匀分布、是否服从Poisson分布等。

  (2)检验某个分类变量各类的出现概率是否等于指定概率。如在36选7的彩票抽奖中,每个数字出现的概率是否各为1/36;掷硬币时,正反两面出现的概率是否均为0.5。

  (3)检验某两个分类变量是否相互独立。如吸烟(二分类变量:是、否)是否与呼吸道疾病(二分类变量:是、否)有关;产品原料种类(多分类变量)是否与产品合格(二分类变量)有关。

  (4)检验控制某种或某几种分类因素的作用以后,另两个分类变量是否相互独立。如在上例中,控制性别、年龄因素影响以后,吸烟是否和呼吸道疾病有关;控制产品加工工艺的影响后,产品原料类别是否与产品合格有关。

  (5)检验某两种方法的结果是否一致。如采用两种诊断方法对同一批人进行诊断,其诊断结果是否一致;采用两种方法对客户进行价值类别预测,预测结果是否一致。

卡方检验的应用条件

  适用于四格表应用条件

  1)随机样本数据。两个独立样本比较可以分以下3种情况:

          (1)所有的理论数T≥5并且总样本量n≥40,用Pearson卡方进行检验。

          (2)如果理论数T<5但T≥1,并且n≥40,用连续性校正的卡方进行检验。

          (3)如果有理论数T<1或n<40,则用Fisher’s检验。

  2)卡方检验的理论频数不能太小。

  R×C表卡方检验应用条件:

          (1)R×C表中理论数小于5的格子不能超过1/5;

          (2)不能有小于1的理论数。如果实验中有不符合R×C表的卡方检验,可以通过增加样本数、列合并来实现。

非参数检验:秩和检验

前提:主要为分等级场景、不管分布

        秩和检验(rank sum test)又称顺序和检验,它是一种非参数检验(nonparametric test)。

        它不依赖于总体分布的具体形式,应用时可以不考虑被研究对象为何种分布以及分布是否已知,因而实用性较强,最早是由维尔克松提出,叫维尔克松两样本检验法。后来曼—惠特尼将其应用到两样本量不等(n1≠n2)的情况,因而又称为曼—惠特尼U检验

        现设1,2两总体分别抽取容量为n1,n2的样本,且设两样本独立。我们将这n1 + n2个观察值放在一起,按自小到大的次序排列,求出每个观察值的秩,然后将属于第1个总体的样本观察值的秩相加,其和记为R1,称为第1样本的秩和,其余观察值的秩的总和记作R2,称为第2样本的秩和。

秩和检验的优点:

  1. 不受总体分布限制,适用面广;
  2. 适用于等级资料及开口(两端无确定值)的资料;
  3. 易于理解,易于计算。

秩和检验的缺点:不能充分利用信息,检验功效低,因此优先级较低

总结一般规律:

Topic2:相关性分析

        之前的文章中已经有比较不错的认知,这里不再复述,详见相关性分析总结(自用,如有侵权秒删)-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/JNTMking/article/details/141469070?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522172448669116800172570500%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=172448669116800172570500&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~first_rank_ecpm_v1~rank_v31_ecpm-1-141469070-null-null.142^v100^pc_search_result_base8&utm_term=%E7%9B%B8%E5%85%B3%E6%80%A7%E5%88%86%E6%9E%90%E6%80%BB%E7%BB%93%EF%BC%88%E8%87%AA%E7%94%A8%EF%BC%8C%E5%A6%82%E6%9C%89%E4%BE%B5%E6%9D%83%E7%A7%92%E5%88%A0%EF%BC%89&spm=1018.2226.3001.4187

参考链接:正态检验 (Normality Test)——常见方法汇总与简述-CSDN博客总结:14种常用的统计假设检验的方法_硕士论文假设验证一般用哪些方法-CSDN博客百度一下,你就知道【统计学】参数检验和非参数检验的区别和基本统计学_什么是参数什么是非参数的区别-CSDN博客统计推断——正态性检验(图形方法、偏度和峰度、统计(拟合优度)检验)_sm.distributions.ecdf-CSDN博客方差分析(单因素ANOVA(One-Way ANOVA)、两因素ANOVA(Two-Way ANOVA))-CSDN博客方差齐性检验(Homogeneity of Variance Test)——SPSS软件实现 - 梦特医数通 (mengte.online)相关性和显著性校验 - 知乎 (zhihu.com)方差分析(Analysis of Variance,简称ANOVA)_f检验 analysis of variance-CSDN博客简单理解t检验与秩和检验-CSDN博客

 卡方检验 - MBA智库百科 (mbalib.com)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值