先说一下简单的数据处理,处理之前先给出R的IDE下载网址:
http://mirrors.xmu.edu.cn/CRAN/
有时候下的版本过于简单,会有很多数据包都没有,这个时候直接 程序包--->安装程序包--->选择站点--->选择包名,然后就可以自动下载了。
然后加载数据使用如下命令:
> library(package_name) #加载含有数据集的软件包
> data(dataset_name) #获取数据集
dataset_name$var1表示的是数据集中的一个变量。
class()函数主要是识别其类别,levels()函数是看其水平级别,可以修改,如levels(dataset_name$var1)[1] = ......
类型的判断用is.numeric(),is.interger(),is.logical(),强制类型转换是把is改成as。
抽样方式:
1.简单随机抽样。
函数sample(x, size, replace = FALSE, prob = NULL),其在base包下,无需加载。
Note:x为待抽样的对象也可以为一整数,size等于抽样的大小,replace代表是否可放回抽样,默认是无放回,prob是设置各抽取样本的抽样概率,默认情况下是等概率,注意replace等于F时,要保证prob为正的个数要大于size。
rep(value,num) #value代表值的大小,num代表赋值的个数
2.分层抽样。(数据集中其它变量取值有明显差异时,分层抽样可以保持样本与数据集分布的一致性)
函数strata(data, stratanames = NULL, size, method = c("srswor", "srswr", "poisson", "systematic"), pik, description = FALSE)
Note:data为待抽样的数据集;stratanames为分层所依据的变量名称;size设置各层抽取的样本数;method参数用于选择其中的四种方法,srswor为无放回,srswr为有放回,poisson为泊松抽样,systematic为系统抽样,,默认的是无放回抽样;pik用于设置各层中的个样本的抽样概率;description用于选择是否输出含有各层基本信息的结果。
例子:strara(Insurance, stratanames = "District", size = c(1,2,3,4), description = T)
3.整群抽样。(要求各群对数据总体有较好的代表性,即群内各样本的差异要大,群间要小)
函数cluster(data, clustername, size, method = c("srswor", "srswr", "poisson", "systematic"), pik, description = FALSE)
clustername表示划分群的变量名称,size代表要抽取的群数。