【R】非参数秩和检验（Kruskal-Wallis H）与事后多重比较邓肯检验（Dunn‘s Test）及自动字母标记

captain_keating

已于 2024-04-12 08:45:58 修改

阅读量4.6k

点赞数 5

分类专栏： R 文章标签： r语言信息可视化开发语言学习

于 2024-04-11 19:45:09 首次发布

本文链接：https://blog.csdn.net/captain_keating/article/details/137649912

版权

这篇博客介绍了如何使用R语言进行非参数检验，包括Kruskal-Wallis H检验和后续的Dunn's Test进行多重比较，以及异常值处理和正态性检验。通过统计分析和数据可视化，如箱线图和小提琴图，来探究植物功能性状在不同功能型中的差异，并使用字母标记法展示显著性差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题描述： 希望利用R语言探究某个植物功能性状在不同功能型中的差异是否显著？若显著希望能够分组。

问题分析：

探究Trait（植物功能性状）在不同PFT（植物功能型分类）中的差异可以采用多种统计和数据可视化方法。以下是一些常用的方法：

描述性统计分析
- 均值和标准差：计算每个PFT中Trait的均值和标准差，提供初步的差异感知。
- 中位数和四分位范围：了解数据的中心趋势和分布范围，特别是对于偏态分布的数据。
数据可视化
- 箱线图（Boxplots）：展示不同PFT中Trait的分布、中位数、四分位数和异常值，直观比较组间差异。
- 小提琴图（Violin Plots）：类似箱线图，但提供了关于数据分布密度的更多信息。
- 散点图（Scatter Plots）：如果Trait是连续的，散点图可以用来展示不同PFT间的关系或聚类。
- 柱状图（Bar Charts）：展示不同PFT中Trait均值或中位数的比较。
统计检验
- ANOVA（方差分析）：用于判断两个或两个以上样本均值是否存在显著差异。
- Kruskal-Wallis H检验：非参数方法，用于不满足正态分布假设的数据的组间比较。
- Mann-Whitney U检验：两个独立样本的非参数检验，用于比较两个PFT中Trait的分布差异。
多变量分析
- 主成分分析（PCA）：如果Trait包含多个变量，PCA可以用来降维并识别哪些变量最能解释数据的差异。
- 聚类分析：基于Trait的值，对植物进行聚类，以发现潜在的PFT群体。

在求算完是否显著后，可以通过字母标记（Letter-based representations）来标注和表示统计学上的相似性或显著性差异，可以方便直观地识别哪些组是统计学上相似的

常用的剔除异常值的方法包括：

标准差法（Standard Deviation Method）： 这种方法假设数据呈正态分布。通常，会剔除那些比平均值大或小若干标准差（例如，3个标准差）的数据点。具体来说，如果数据点满足以下条件之一，则被视为异常值：
- 数据点<(平均值−k×标准差)
- 数据点>(平均值+k×标准差)
其中，k通常取值2或3。
四分位数（Interquartile Range, IQR）法： 此方法不要求数据呈正态分布，适用于更广泛的场景。首先计算数据的第一四分位数（Q1）和第三四分位数（Q3），然后计算IQR&