R语言分层抽样(strata函数)

最新推荐文章于 2025-02-21 15:18:14 发布

程志伟

最新推荐文章于 2025-02-21 15:18:14 发布

阅读量2.8w

点赞数 8

分类专栏： R语言文章标签： R语言

本文链接：https://blog.csdn.net/c1z2w3456789/article/details/80572243

版权

R语言专栏收录该内容

79 篇文章

订阅专栏

关注微信公共号：小程在线

关注CSDN博客：程志伟的博客

library(sampling)

strata(data,stratanames=NULL,size,method=c("srswor","srswr","poisson","systematic"),pik,description=FALS)

stratanames: 进行分层所依据的变量名称。

size: 各层中要抽出的观测样本数。

method: 选择4中抽样方法，分别为无放回、有放回、泊松、系统抽样，默认为srswor。

pik: 设置各层中样本的抽样概率。

description: 选择是否输出含有各层基本信息的结果。

举例说明：

A、B、C分别为分类变量

A有2个分类变量，B有5个分类变量，C有2个分类变量

第一步按照这三个变量进行排序

sourui=sourui[order(sourui$A,sourui$B,sourui$C),]

第二步筛选变量，size参数对应20个比例20=2*5*2，比例可以自己设置

sub_train=strata(sourui,stratanames=c("A","B","C"),
size=c(21,269,806,2325,3420,1972,2474,1500,1419,741,3,7,58,42,313,70,685,209,696,210),

method="srswor")

第三步：分为训练集和测试集，ID_unit变量在第二步产生。

data_train <- sourui[sub_train$ID_unit,]
data_test <- sourui[-sub_train$ID_unit,]

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

程志伟

关注关注

8
点赞
踩
50

收藏

觉得还不错? 一键收藏
5
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

R分层抽样（Stratified Sampling）

data+scenario+science+insight

07-15

2541

R分层抽样（Stratified Sampling）目录 R分层抽样（Stratified Sampling） R分层抽样基于行数的分层抽样 基于行数比例的分层抽样 研究人员通常从一个总体（population）中提取样本(sample)，并利用样本（sample）中的数据得出关于整个总体（population）的结论。一种常用的抽样方法是分层随机抽样（Stratified Sampling），将一个群体分成几组（group），从每组中随机选择一定数量的成员纳入样本集中.

R语言中的分层采样

DevGOOD的博客

08-28

1017

通过按照上述步骤导入数据、划分层次、确定样本大小、进行随机采样和合并样本，您可以在R中轻松执行分层采样，并获得具有代表性的样本。例如，如果我们有一个代表性调查的数据集，并且要根据性别进行分层采样，我们可以使用subset()函数将数据集拆分为不同的层次。分层采样是一种在采样过程中根据总体的特征将总体划分为若干层，并从每一层中抽取样本的方法。根据实际需求，您可以调整每个层次的样本大小、选择不同的特征变量进行分层以及使用其他相关的函数和技术。最后，将从每个层次中抽取的样本合并为最终的分层样本。

5 条评论您还未登录，请先登录后发表或查看评论

分层采样（stratified sampling）

iteye_16791的博客

12-07

4768

保留类别比例的采样方式。先将总体的单位按某种特征分为若干次级总体（层），然后再从每一层内进行单纯随机抽样，组成一个样本。分层可以提高总体指标估计值的精确度，它可以将一个内部变异很大的总体分成一些内部变异较小的层（次总体）。每一层内个体变异越小越好，层间变异则越大越好。 分层抽样比单纯随机抽样所得到的结果准确性更高，组织管理更方便，而且它能保证总体中每一层都有个体被抽到。这样...

R语言学习笔记——确定指标权重：层次分析法/熵权法/CRITIC方法

热门推荐

千里码的博客

10-17

2万+

R语言 分层抽样---分层随机抽样(SRS) strata的使用

R语言两种方法实现随机分层抽样

dege857的博客

05-10

1512

其实用起来非常简单哈，data就是你的数据，strataname就是你分层的变量名字，我们这里当然是SEX性别啦，size就是你抽取的数量，method是抽取的方法，有不替换的简单随机抽样（srswr）、替换的简单随意抽样（srswr）、泊松抽样（Poisson）、系统抽样（systematic sampling）；这是个体检相关的数据，公众号回复：体检数据，可以获得这个数据。如果要提取数据，需要使用ID_unit这个变量，这是数据的标识，咱们通常会把分层抽样的数据用来建模，其余的数据用来验证。

R 实现分层抽样教程

neweastsun的专栏

01-09

1万+

我们经常需要从总体中抽取样本，并利用样本数据推断有关总体的结论。本文介绍分层抽样的概念以及R的实现过程。 分层抽样 分层抽样是一种常用的抽样方法。它把总体分为多个组，然后从每个组中随机抽取一定数量样本形成分析样本。下面通过两个示例进行说明。假设高校有400学生，包括大一、大二、大三、大四四个年级组成。我们现在需要采用分层抽样方法从每个年级随机抽取10人组成分析样本。下面代码模拟生成100个学生数据： set.seed(1) df <- data.frame(grade = rep(c('F.

R语言 分层抽样 strata (三)，每层抽取80%

千里码的博客

10-18

1万+

##本例子使用的是R自带的数据集iris irisData=iris ##重命名列 names(irisData)=c("萼长","萼宽","瓣长","瓣宽","种类") ##处理后的数据格式如下所示： >head(irisData, 3) 萼长萼宽瓣长瓣宽种类 1 5.1 3.5 1.4 0.2

分层抽样在R语言中的应用

BugHunterX的博客

08-11

783

分层抽样是一种常用的统计抽样方法，可以有效地从总体中选择一个具有代表性的样本。本文介绍了在R语言中进行分层抽样的基本原理和操作步骤，并结合示例演示了如何实现分层抽样。通过合理地使用分层抽样方法，可以提高样本的代表性，从而更准确地进行统计推断和数据分析。（1）准备数据集：首先，需要准备一个包含观测值和各个层次的数据集。可以使用subset函数指定不同层次的条件，并使用size参数指定每个层次需要选择的样本数量。运行以上代码后，将得到一个包含分层抽样结果的数据框，其中每一行代表一个样本，包括姓名和所属年级。

R语言数值抽样方法：分层抽样（Stratified Sampling）、分层随机抽样（Stratified Sampling）

statistics+insight+vista+power

07-07

365

R语言数值抽样方法：分层抽样（Stratified Sampling）、分层随机抽样（Stratified Sampling），将一个群体分成几组（group），从每组中随机选择一定数量的成员纳入样本集中，这样获得的训练集和测试集都具有代表性

分层抽样分析：使用R语言计算方差、置信区间和设计效应

Mrrunsen的博客

05-27

599

方差是度量统计数据分散性的一个指标。在抽样中，方差用于衡量样本估计的可靠性；方差越小，估计越可靠。

strata提高教程

11-27

地震反演软件strata的教程，比较实用

R语言实现分层抽样(Stratified Sampling)以iris数据集为例

weixin_30367543的博客

07-03

1004

R语言实现分层抽样(Stratified Sampling)以iris数据集为例 1.观察数据集 head(iris) 选取数据集中前6个数据，我们可以看出iris数据集一共有5个字段。 dim(iris) iris数据集一共有150条数据，5个字段 summary(iris) 观察各个变量的内容，可以看出前四个变量（Sepal.Length Sepal.Width Peta...

R如何实现分层抽样（学习笔记）

qq_42480302的博客

02-24

2296

R软件实现分层抽样

写一个用r语言分层抽样算积分的代码——chatgpt版

统计学小王子的博客

04-17

1522

【代码】写一个用r语言分层抽样算积分的代码——chatgpt版。

R分层抽样：实现分层抽样的R语言代码示例

DevProZ的博客

08-25

1158

通过分层抽样，我们可以获得代表性的样本，更好地了解总体的特征。你可以根据自己的需求和数据集的特点进行相应的调整和修改。分层抽样是一种常用的抽样方法，用于从总体中选择具有代表性的样本。它将总体分为若干个互不重叠的层，然后从每个层中抽取样本。我们希望从中选择一个具有代表性的样本，使得样本中每个年龄段的人数与总体中的比例相似。函数将"age"列的值划分为五个区间，并为每个区间分配了对应的标识符。你可以根据实际情况调整区间的划分和标识符的命名。确保每个年龄段的样本数量与设定的样本大小相似。来指定每个层的样本大小。

[置顶]R语言 分层抽样---分层随机抽样(SRS)（二）

千里码的博客

10-18

6582

############################################################ 自定义分层抽样函数： ############################################################ stratified replace = FALSE, bothSets =

R语言实现k-means聚类优化的分层抽样(Stratified Sampling)分析各市镇的人口

大数据部落

07-12

1769

原文链接：http://tecdat.cn/?p=23038 原文出处：拓端数据部落公众号简介假设我们需要设计一个抽样调查，有一个完整的框架，包含目标人群的信息（识别信息和辅助信息）。如果我们的样本设计是分层的，我们需要选择如何在总体中形成分层，以便从现有的辅助信息中获得最大的优势。换句话说，我们必须决定以何种方式来组合辅助变量（从现在开始是 "X "变量）的值，来确定一个新的变量，称为 "分层"。为此，我们必须考虑到抽样调查的目标变量"Y "变量：如果为了形成分层，我们选择与Y变量最

R语言进行随机抽样、分层抽样和系统抽样

weixin_46579654的博客

04-14

5363

最近在进行一项哨点监测项目，需要对监测点乡镇、学校和医疗机构分别进行人口规模排序的系统抽样、学校类别的分层抽样以及随机抽样，对比spss、excel后发现R语言中的sampling包能够得到较好的实现，直接上代码。原始抽样框如下，分别存放与excel不同的sheet中：代码部分： library(readxl) library(dplyr) library(sampling) dt<-list() for(i in 1:3){ dt[[i]]<-read_excel("x

r语言分层抽样内曼分配

10-10

R语言中可以使用"strata"函数进行分层抽样，内曼分配（Neyman allocation）是一种常用的分层抽样方法之一。在R中，可以使用以下步骤进行分层抽样内曼分配： 1. 首先，确定需要分层的变量，并使用"strata"函数创建...