抽样方法
常见的抽样方法
- 简单随机抽样
- 分层抽样
- 系统抽样
# 导入数据
# 1 金融 2 建筑 3 外语
data <- read.csv("E:\\Github\\code-learning\\R\\data\\第11期资料\\data.csv")
# 按照专业和ID排序
data <- data[order(data$专业,data$ID),]
head(data)
专业 | ID | 收入 | |
---|---|---|---|
375 | 1 | A001 | 6811 |
360 | 1 | A002 | 3976 |
505 | 1 | A003 | 2692 |
470 | 1 | A004 | 8156 |
214 | 1 | A005 | 2169 |
450 | 1 | A006 | 6142 |
简单随机抽样
简单随机抽样最基本的抽样方法。分为重复抽样和不重复抽样。社会调查采用不重复抽样。
sample(x,size,replace=FALSE,prob=NULL)
- x :抽样总体
- size: 样本容量
- replace: 是否有放回
- prob: 抽样概率,默认等概率
使用sample函数要将数据按照升序排序
# 对数据序号抽样
# 无放回的抽取10个样本
index_11 <- sample(1:nrow(data),10,replace = FALSE)
index_11
data[index_11,]
- 202
- 181
- 392
- 222
- 22
- 117
- 190
- 247
- 135
- 169
专业 | ID | 收入 | |
---|---|---|---|
65 | 2 | B102 | 8522 |
369 | 2 | B081 | 8386 |
309 | 3 | C092 | 6151 |
169 | 2 | B122 | 6439 |
392 | 1 | A022 | 4371 |
41 | 2 | B017 | 4203 |
428 | 2 | B090 | 5392 |
44 | 2 | B147 | 3291 |
402 | 2 | B035 | 7097 |
523 | 2 | B069 | 8141 |
# 又放回的抽取收入大于6000的5个样本
index_12 <- sample(data$ID,5,replace = TRUE)
index_12
- C118