1、R中的数据集&数据结构
-
数据集:由数据构成的一个矩形数组,行表示观测,列表示变量
例子:对于一个班级学生信息的数据集,行代表每个学生,作为一个观测;列可能包括学号、身高、体重、GPA等多个维度的变量,反映一个观测的多个不同属性。 -
数据结构
R中用于存储数据的对象类型:标量,向量,矩阵,数组,数据框,列表
术语解释:
- [ 对象(object)]是指可以赋值给变量的任何事物,包括常量、 数据结构、函数、图形等。对象都拥有某种模式,描述了对象的存储方式或处理方式(如函数print)。
- 数据框(data frame):列表示变量,行表示观测,同一个数据框中可以存储不同类型的变量(如数值型,字符型),数据框是数据集存储的主要数据结构。
- 因子(factor):名义型变量或有序型变量。
- 向量:是用于存储数值型、字符型或逻辑型数据的一维数组。可以使用函数c()(具有组合功能)创建向量。
a<-c(1,2,5,3,6,-2,4) #数值型
b<-c("one","two","three")#字符型
c<-c(TRUE,FALSE,TRUE,FALSE,FALSE)#逻辑型
【注意】
单个向量中的数据必须具有相同的类型或模式(如数值型,字符型,逻辑型)。也即同一向量不能混杂不同模式的数据。
标量是含有一个元素的向量。如:f<-‘us’
使用方括号索引可以访问向量中的元素,其中第一个元素的下表是1而不是0。
a<-c(1,2,5,3,6,-2,4)
a[3]#5
a[c(1,3,5)]#1,5,6
a[2:6]#2,5,3,6,-2
- 矩阵:二维数组,每个元素都有相同的模式(可以是数值型,字符型或逻辑型)。创建函数matrix()
mymatrix<-matrix(vector,nrow=number_of_rows,ncol=number_of_columns,byrow=logical_value,dimnames=list(char_vector_rownames,char_vector_colnames))
# vector中含有矩阵的元素,nrow和ncol指定矩阵行和列的维数,dimnames是可选的以字符型**向量**表示的行名和列名,byrow选项表示矩阵应当按行填充(byrow=TRUE)或按列填充(默认情况,byrow=FALSE)
矩阵下标使用:使用下标和方括号来选择矩阵中的行、列或元素。x[i,]矩阵x的第i行;x[,j]矩阵x的第j列;x[i,j]矩阵的第i行第j列的元素。当选择多行或多列时,下标i,j可以为数值型向量。
矩阵与向量类似,也只能包含一种数据类型。
- 数组(array):与矩阵类似,位数大于2。通过函数array()创建
myarray&l