前言
R语言数据挖掘
一、工作路径的获取和相关包载入
getwd()
library(MASS)
library(sampling)
二、抽样技术
1.简单抽样:有放回简单抽样
代码如下(示例):
set.seed(2)
#从iris数据集中有放回的随机抽5个样本
sub1<- sample(nrow(iris),5,replace = T)
sub1
iris.sub1<-iris[sub1,]
iris.sub1
write.csv(iris.sub1,"iris.sub1.csv")
sub2<-sample(nrow(iris),5,replace = T,prob = c(rep(0,nrow(iris)-1),1))
iris[sub2,]
2.简单无放回抽样
代码如下(示例):
set.seed(2)
sub3<-sample(nrow(iris),5)
sub3
iris[sub3,]
3.分层抽样
library(sampling)
names(iris)
set.seed(2)
#按照Species进行分层抽样,每个街区分别无放回抽取4个样本
sub4<-strata(iris,stratanames = "Species",size=c(4,4,4,4),method = "srswor")
sub4
getdata(iris,sub4)
sub5<-strata(iris,stratanames = "Species",size=c(1,3,4,5),description = TRUE)
sub5
getdata(iris,sub5)
4.整群抽样
library(sampling)
set.seed(2)
sub7<-cluster(iris,clustername ="Species",size=2,method ="srswr",
description=TRUE)
sub7
getdata(iris,sub7)
sub8<-cluster(iris,clustername ="Species",size=2,method ="srswr",
pik=iris$Sepal.Width,description=TRUE)
sub8
getdata(iris,sub8)