R语言抽样技术

代号跳

已于 2022-06-12 15:25:02 修改

阅读量1.9k

点赞数 3

文章标签： r语言数据挖掘机器学习

于 2022-06-12 15:19:39 首次发布

本文链接：https://blog.csdn.net/m0_54184704/article/details/125245550

版权

前言

R语言数据挖掘

一、工作路径的获取和相关包载入

getwd()  
library(MASS)
library(sampling)

二、抽样技术

1.简单抽样：有放回简单抽样

代码如下（示例）：

set.seed(2)
#从iris数据集中有放回的随机抽5个样本
sub1<- sample(nrow(iris),5,replace = T)
sub1
iris.sub1<-iris[sub1,]
iris.sub1
write.csv(iris.sub1,"iris.sub1.csv")

sub2<-sample(nrow(iris),5,replace = T,prob = c(rep(0,nrow(iris)-1),1))
iris[sub2,]

2.简单无放回抽样

代码如下（示例）：

set.seed(2)
sub3<-sample(nrow(iris),5)
sub3

iris[sub3,]

3.分层抽样

library(sampling)
names(iris)
set.seed(2)
#按照Species进行分层抽样，每个街区分别无放回抽取4个样本
sub4<-strata(iris,stratanames = "Species",size=c(4,4,4,4),method = "srswor")
sub4
getdata(iris,sub4)


sub5<-strata(iris,stratanames = "Species",size=c(1,3,4,5),description = TRUE)
sub5
getdata(iris,sub5)

4.整群抽样

library(sampling)
set.seed(2)
sub7<-cluster(iris,clustername ="Species",size=2,method ="srswr",
              description=TRUE)
sub7
getdata(iris,sub7)

sub8<-cluster(iris,clustername ="Species",size=2,method ="srswr",
              pik=iris$Sepal.Width,description=TRUE)
sub8
getdata(iris,sub8)

5.划分训练样本和测试样本

set.seed(2)
sub<-sample(nrow(iris),3/4*nrow(iris))
train<-iris[sub,]
test<-iris[-sub,]
dim(train)
dim(test)
train
test

write.csv(train,"train.csv")
write.csv(test,"test.csv")