导语:
尽可能地挖掘出数据中有用的信息,是对数据提供者最大的尊重。因为很多时候数据提供者(有时是自己)是付出了巨大的牺牲才获得这些数据。
完成一篇高质量的文章(如CNS,PNAS或者单个领域的顶刊),需要一个(1)有新意的idea, (2)与该idea相对应的完美的实验或数据收集,(3)深入的统计分析【挖掘出数据中的规律】,通常3者缺一不可。此文主要关注第3步:深入的统计分析。
什么是“深入分析”呢?
这里,我们可以简单理解为“找到规律”,最好是一类现象通用的规律,规律可以是:
- 研究对象的时空变化规律,即研究对象哪里高(where, 空间分布规律),什么时候高(when, 时间分布规律),哪些类型的对象高(which 或者 who, 需要某些统计检验验证);
- 为什么会在这里高,这个时候高,这些类型的高 (why),即找到哪些因素(温度?盐度?气压?光照?竞争?)造成了这种状况及各因素的影响程度(重要性分析);
- 最终我们还需要知道这些影响因素以什么样的形式定量地影响研究对象(how)?直线关系,抛物线关系,S型曲线关系,线性整流函数式曲线关系(满足一定阈值后开始影响)还是其他类型的曲线关系,该直线/曲线上的关键点在哪?
天行有常,不为尧存,不为桀亡。虽然大自然的运行有其内在的规律,但这个“规律”很多时候并不那么明显,而需要我们通过已有的现象或数据去慢慢揭示,科研工作可以看成一点一点,一步一步揭示大自然/宇宙中的规律的过程,即上文中的[2]和[3]。
PNAS案例分析
下面将以北京大学医学部的任爱国教授于2011年发表在PNAS上的一篇文章为例(下图),介绍如何应用开源的(免费)R语言实现该文章中的统计分析:
(1)Mann-Whitney U 检验
(2)Pearson卡方检验
(3)无条件逻辑回归[Unconditional Logistic Regression]
介绍此3个分析方法的过程中,作者也将简要介绍如何通过R语言做出漂亮的分析图。
Mann–Whitney U test (也叫 Wilcoxon rank-sum检验, Mann–Whitney–Wilcoxon (MWW)检验 或者 Wilcoxon–Mann–Whitney检验) ,作者应用此方法检验处理组与对照组的中位数是否有显著性差异(非参检验)。代码中为模块2第28行,(),就这一行,是不是非常简单。
模块2中1-26行为随机生成2个元组&