R 语言之数据分析「Resampling」

最新推荐文章于 2022-04-08 07:17:42 发布

R语言中文社区

最新推荐文章于 2022-04-08 07:17:42 发布

阅读量1.8k

点赞数

本文链接：https://blog.csdn.net/kMD8d5R/article/details/80650233

版权

本文介绍了数据分析中的重抽样技术，包括置换检验、交叉验证、刀切法和Bootstrap方法。通过R语言实现，详细阐述了各种方法的原理和应用场景，如置换检验中的两总体均值之差问题，交叉验证的「CV值」估计，刀切法处理异常值，以及Bootstrap法在估计置信区间中的应用。同时，提供了R包和函数的实例，帮助读者理解和运用重抽样技术。

摘要由CSDN通过智能技术生成

‍‍‍‍‍‍‍‍‍

640?

作者：姚某某

博客：https://zhuanlan.zhihu.com/mydata

往期回顾：

R语言之数据分析高级方法「时间序列」

R语言之高级数据分析「聚类分析」

R 语言之数据分析高级方法「主成分分析」和「因子分析」

640?wx_fmt=gif

本节主要总结「数据分析」的「Resampling」重抽样思想，并通过 R 语言实现。

有一种东西叫作「传统」，它在很多时候很有用，但会让你思维固化，在新的环境下让你出错。

在总结回归分析和方差分析的时候 ④Ｒ语言之数据分析「初章」，我总是会在模型的建立之前提到「统计假设」，在模型建立之后进行「假设检验」，原因想必大家都能理解，就是因为这些「统计假设」是我们模型建立思想的基础，是支撑我们模型正确性的「必要条件」。但是，不可否认的是，这些「必要条件」最终会成为我们「数据分析」的局限，让我们对「不满足条件的数据集」束手无策。

本节，我们就来解决这个「必要条件」中的其中一条假设，从特例到普遍。

统计假设中有一条，叫做「假定观测数据抽样自正态分布或者是是其他性质较好的分布」，那么当数据集抽样自「未知分布、混合分布」、样本容量过小或存在离群点时，传统的统计方法所得到的模型可能就会不那么准确，原因之前已经讲过，这个时候「Resampling」的思想就出现了。它抛弃了分布的理论，而是完全基于同一个样本，在这个样本中多次重复抽样，然后将所有抽样的结果作为总体，将原样本放到其中去检验，判定其显著性。因为需要多次重复抽样，所有它被称为重抽样「Resampling」。

1. Resampling 的分类

1.1. 置换检验（ permutation test ）

这个方法是传统统计方法的创建者 R. A. Fisher 建立的，但是由于这个方法的计算量过大、且计算机技术也未成熟，他最后放弃了这个方法。但是，数十年后的今天，计算机技术的高速发展，这个方法终于能够实现并发挥其价值。

为了更清楚的说明置换检验的思想，我举一个「两总体均值之差」的推断问题：

现在有两套学习方案 A 和 B，在 10 个受试者中随机抽取 5 个按照方案 A 学习，另外 5 个按照方案 B 学习，在学习完毕后对 10 个受试者进行测试，得到分数如下：方案 A 方案 B 91 89 88 78 76 93 79 81 82 77 原假设H_{0} ：两种方案的总体均值相等；备择假设H_{a}：两种方案的总体均值不等