前言
自学笔记,分享给对统计学原理不太清楚但需要在论文中用到的小伙伴,欢迎大佬们补充或绕道。ps:本文不涉及公式讲解(文科生小白友好体质)~
本文重点:参数检验和非参数检验的区别以及对应的常用统计学方法
(这是需要根据自己的数据类型搞清楚用哪种统计学方法的关键)
【1.参数检验】
【2.非参数检验】
【3.参数检验和非参数检验的区别】
【4.常用统计学方法】
1.什么是参数和参数检验
参数(parameter)的概念
在统计学中,参数(parameter)是用来描述总体特征的数值。与统计量(statistic)不同,统计量是根据样本数据计算得到的,而参数是总体固有的特性。通常情况下,研究者无法直接观测到总体参数,而是通过从总体中抽取样本,然后基于样本数据对总体参数进行估计和推断。
一些常见的总体参数包括:
- 均值(μ):总体中所有观测值的平均数。
- 方差(σ^2):总体中观测值与均值之差的平方的平均数,反映数据的离散程度。
- 标准差(σ):方差的平方根,与方差一样,反映数据的离散程度。
- 比例(π):总体中具有某种特征的个体所占的比例。
- 相关系数(ρ):两个变量之间线性关系的强度和方向。
在参数检验中,研究者通常关注一个或多个总体参数,并根据样本数据对这些参数进行估计和假设检验。例如,在两独立样本t检验中,研究者关注两个总体的均值是否存在显著差异;在回归分析中,研究者关注自变量和因变量之间的关系强度(回归系数)。
参数检验(parameter test):来自百度
全称参数假设检验,是指对参数平均值、方差进行的统计检验。参数检验是推断统计的重要组成部分。当总体分布已知(如总体为正态分布),根据样本数据对总体分布的统计参数进行推断。
通俗来讲:当总体数据庞大无法一一进行计算的时候,使用随机抽样的方法抽取部分数据来假设它们可以代表整体。根据部分数据构建统计量。但必须满足整体数据满足正态分布(可绘制线图更直观判断)
2.非参数检验
非参数检验是在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为“非参数”检验。
也就是说,非参数检验不依赖于总体分布的假设,通过利用样本数据的秩或其他无量纲量,构建对总体分布不敏感的统计量。当总体分布未知或样本量较小时,非参数检验仍然能够提供有效的推断结果。
非参数检验适用于以下几种类型的数据:
- 有序分类数据(ordinal data): 例如,调查问卷中的满意度评级,分为"非常不满意"、"不满意"、"一般"、"满意"和"非常满意"。这种数据有等级之分,但等级之间的差距不一定相等。 适用的非参数检验方法:Mann-Whitney U检验、Wilcoxon符号秩检验、Kruskal-Wallis检验等。
- 名义分类数据(nominal data): 例如,一项医学研究中,将患者分为"治疗组"和"对照组",比较两组的治疗效果。这种数据只有类别之分,没有等级之分。 适用的非参数检验方法:卡方独立性检验、Fisher精确检验等。
- 小样本数据(small sample size): 例如,一项针对特定人群的研究,由于受试者数量有限,只能招募到10个参与者。这种情况下,样本量较小,不满足参数检验的assumptions。 适用的非参数检验方法:Wilcoxon符号秩检验、Mann-Whitney U检验、Kruskal-Wallis检验等。】
3.参数检验和非参数检验的区别
- 数据分布假设:
- 参数检验:要求数据服从特定的概率分布(如正态分布)或满足某些参数假设。
- 非参数检验:不要求数据服从特定的概率分布,对数据分布的假设较少。
2.样本量要求:
- 参数检验:通常需要较大的样本量,以满足参数估计和假设检验的要求。
- 非参数检验:适用于样本量较小的情况,对样本量的要求相对较低。
3.统计量计算:
- 参数检验:基于参数估计和概率分布理论,使用特定的统计量(如t统计量、F统计量等)进行假设检验。
- 非参数检验:通常基于数据的秩或顺序信息,使用排序、符号等非参数统计量进行假设检验
4.统计功效:
- 参数检验:当数据满足参数假设时,参数检验通常具有更高的统计功效。
- 非参数检验:当数据不满足参数假设或样本量较小时,非参数检验可能更为合适,但统计功效可能较低。
5.应用场景:
- 参数检验:适用于数据满足特定概率分布或参数假设的情况,如正态分布、方差齐性等。
- 非参数检验:适用于数据分布未知、样本量较小或数据为有序分类数据的情况。
4.常用统计学方法
参数检验:
- t检验
- 独立样本t检验:用于检验两个独立样本均值之间是否存在显著差异。
- 配对样本t检验:用于检验成对观测数据的均值差是否显著不同于零。
2.方差分析(ANOVA)
- 单因素方差分析:用于检验三个或更多组别的均值是否存在显著差异。
- 双因素方差分析:用于检验两个自变量对因变量的影响以及交互效应。
- 重复测量方差分析:用于检验重复测量数据的均值差异
3.协方差分析(ANCOVA):在方差分析的基础上,引入协变量进行调整和控制。
4.皮尔逊相关系数:用于度量两个连续变量之间的线性相关程度
5.回归分析:
- 线性回归:用于建立自变量和因变量之间的线性关系模型。
- 多元回归:用于建立多个自变量与因变量之间的线性关系模型。
- Logistic回归:用于建立自变量与二分类因变量之间的关系模型。
非参数检验:
- Mann-Whitney U检验(也称Wilcoxon秩和检验):用于比较两个独立样本的中位数是否存在显著差异。
- Wilcoxon符号秩检验:用于检验成对观测数据的中位数差是否显著不同于零。
- Kruskal-Wallis检验:用于比较三个或更多独立样本的中位数是否存在显著差异。
- Friedman检验:用于比较三个或更多配对样本的中位数是否存在显著差异。
- Spearman秩相关系数:用于度量两个有序变量或连续变量之间的单调相关性。
- 卡方检验:
- 卡方独立性检验:用于检验两个分类变量之间是否存在显著的关联性。
- 卡方拟合优度检验:用于检验观测频数与理论频数是否存在显著差异。
- Kolmogorov-Smirnov检验:用于检验一个样本是否来自特定的概率分布。
- 符号检验:用于检验两个配对样本的中位数差是否显著不同于零,适用于小样本情况。
这只是一部分常用的统计学方法,实际应用中还有许多其他的参数检验和非参数检验方法,如McNemar检验、Cochran Q检验、Mantel-Haenszel检验等,可以根据具体的研究问题和数据特点进行选择。
▷之后会尝试满满更新每种方法所适合的数据以及python代码。