创建数据集
数据集通常是由数据构成的一个矩形数组,行表示观测,列表示变量。
对象是指可以赋值给变量的任何事物,包括常量,数据结构,函数,甚至图形。
对象拥有的模式描述对象是任何存储的
数据框是R中用于存储数据的一种结构:列表示变量,行表示观测。数据框将用来存储数据集的主要的数据结构
存储数据的对象类型
向量:用来存储数值型、字符型或逻辑型数据的一维数组。
a <- c(1,2,3,-6)
b <- c("one","two")
c <- c(TRUE,FALSE)
矩阵:二维数组里面每个元素都拥有相同的模式。
#矩阵一般格式
myymatirx <-matrix(vector,nrow=number_of_row,ncol=number_of_columns,byrow=logical_value,dimnames=list(
char_vector_rownames,char_vector_colnames))
#其中vector包含了矩阵的元素,nrow,rcol用来指定行和列的维数,dimnames包含了可选的,以字符型向量表示的行名和列名,选项byrow标明矩阵应当按行填充还是按列填充。
#创建5×4矩阵
y <- matrix(1:20, nrow=5, ncol=4)
#按行填充2×2矩阵
cells <- c(1,26,24,68)
rnames <- c("R1","R2")
cnames <- c("C1","C2")
mymatrix <- matrix(cells,nrow=2,ncol=2,byrow=TRUE,
dimnanes=list(rnames,cnames))
##当byrow=FALSE时,则是按列填充2×2矩阵
数组:与矩阵相类似,不同是,其维度可以大于2。
#数组格式
myarray <- array(vector,dimensions,dimnames)
#dimensions是一个数值型向量,给出了各个维度下标的最大值
#创建数组
dim1 <- c("car1","car2","car3")
dim2 <- c("day1","day2")
dim3 <- c("spring","summer")
sales <- c(99,23,77,34,12,56,22,31,12,34,54,66)
situation <- array(sales,c(3,2,2),dimnames=list(dim1,dim2,dim3))
数据框:在数据框里面不同列可以包含不同模式(数值型、字符型等)的数据#一般格式
mydata <- data.frame(col1,col2,col3,...)
#创建数据框
student <- c("Jane",""kris","Davied")
age <- c("23","18","17")
like <- c("cars","grame","sing song")
infor <- data.frame(student,age,like)
列表
#一般格式
mylist <- list(object1,object2,...)
#创建列表
tips <- "welcome to"
names <- c("mink","okliy","dudliy")
malt <- matrix(1:10,nrow=2)
mylist <- list(title=tips,join=names,malt)
因子:类别(名义型)变量和有序类别(有序型)变量
变量可归结为名义型、有序型、连续型变量
名义型变量是没有顺序之分的类别变量
有序型变量表示一种顺序关系,而非数量关系。
连续型变量可以呈现某个范围内的任意值,并同时表示顺序和数量
函数factor()以一个整数向量的形式存储类别值,不同整数表示的不同的内部向量因子:类别(名义型)变量和有序类别(有序型)变量
变量可归结为名义型、有序型、连续型变量
名义型变量是没有顺序之分的类别变量
有序型变量表示一种顺序关系,而非数量关系。
连续型变量可以呈现某个范围内的任意值,并同时表示顺序和数量
函数factor()以一个整数向量的形式存储类别值,不同整数表示的不同的内部向量
diabetes <- c("a1","b1","a1","b1")
diabetes <- factor(diabetes)
#语句factor(diabetes)将向量存储为(1,2,1,2),并将内部变量与整数关联
#有序型变量
status <- c("poor","improved","Excellent","improved")
status <- factor(status,ordered=TRUE)
#status中向量以整数的形式进行编辑,存储
#如果要指定排序
status <- factor(status,order=TRUE, levels=c("poor","improved","Excellent"))
#数值型变量可以用levels和labels参数来编码成因子
sex <- factor(sex,levels=c(1,2),labels=c("Male","Female"))
#男性编码成1,女性编码成2
#矩阵一般格式
myymatirx <- matrix(vector,nrow=number_of_row,ncol=number_of_columns, byrow=logical_value,dimnames=list(
char_vector_rownames,char_vector_colnames))
#其中vector包含了矩阵的元素,nrow,rcol用来指定行和列的维数,dimnames包含了可选的,以字符型向量表示的行名和列名,选项byrow
标明矩阵应当按行填充还是按列填充。