R 语言之数据分析「Resampling」

本文介绍了数据分析中的重抽样技术,包括置换检验、交叉验证、刀切法和Bootstrap方法。通过R语言实现,详细阐述了各种方法的原理和应用场景,如置换检验中的两总体均值之差问题,交叉验证的「CV值」估计,刀切法处理异常值,以及Bootstrap法在估计置信区间中的应用。同时,提供了R包和函数的实例,帮助读者理解和运用重抽样技术。
摘要由CSDN通过智能技术生成

‍‍‍‍‍‍‍‍‍

640?

作者:姚某某

博客:https://zhuanlan.zhihu.com/mydata

往期回顾:

R语言之数据分析高级方法「时间序列」

R语言之高级数据分析「聚类分析」

R 语言之数据分析高级方法「主成分分析」和「因子分析」

640?wx_fmt=gif

本节主要总结「数据分析」的「Resampling」重抽样思想,并通过 R 语言实现。

有一种东西叫作「传统」,它在很多时候很有用,但会让你思维固化,在新的环境下让你出错。

在总结回归分析和方差分析的时候 ④R语言之数据分析「初章」,我总是会在模型的建立之前提到「统计假设」,在模型建立之后进行「假设检验」,原因想必大家都能理解,就是因为这些「统计假设」是我们模型建立思想的基础,是支撑我们模型正确性的「必要条件」。但是,不可否认的是,这些「必要条件」最终会成为我们「数据分析」的局限,让我们对「不满足条件的数据集」束手无策。

本节,我们就来解决这个「必要条件」中的其中一条假设,从特例到普遍。

统计假设中有一条,叫做「假定观测数据抽样自正态分布或者是是其他性质较好的分布」,那么当数据集抽样自「未知分布、混合分布」、样本容量过小或存在离群点时,传统的统计方法所得到的模型可能就会不那么准确,原因之前已经讲过,这个时候「Resampling」 的思想就出现了。它抛弃了分布的理论,而是完全基于同一个样本,在这个样本中多次重复抽样,然后将所有抽样的结果作为总体,将原样本放到其中去检验,判定其显著性。因为需要多次重复抽样,所有它被称为重抽样「Resampling」。


1. Resampling 的分类

1.1. 置换检验( permutation test )

这个方法是传统统计方法的创建者 R. A. Fisher 建立的,但是由于这个方法的计算量过大、且计算机技术也未成熟,他最后放弃了这个方法。但是,数十年后的今天,计算机技术的高速发展,这个方法终于能够实现并发挥其价值。

为了更清楚的说明置换检验的思想,我举一个「两总体均值之差」的推断问题:

 
 

现在有两套学习方案 A 和 B,在 10 个受试者中随机抽取 5 个按照方案 A 学习,另外 5 个按照方案 B 学习,在学习完毕后对 10 个受试者进行测试,得到分数如下:              方案 A                 方案 B          91                    89          88                    78          76                    93          79                    81          82                    77 原假设H_{0} :两种方案的总体均值相等 ;备择假设H_{a}:两种方案的总体均值不等

<

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值