R中的处理对象就是数据,每个对象包含多个元素。
所有的对象都有两个内在属性:类型和长度。二者可以通过mode和length得到。
类型包括数值、字符、逻辑、复数等。
长度指的是数据中元素的数目。
无论哪种类型,缺失数据总是用NA表示。
无穷数值使用Inf和-Inf表示正负无穷。
非数字表示为NaN(注意NaN仍为数值型)。
所有数据按结构可分为向量、因子、数组、矩阵、数据框、时间序列和列表。
1、向量是最简单的一类,就是包含一行数字的变量。其他结构都可以看作由若干向量组成。
2、因子是分类变量,也可以看作是带有分类标签的向量。
3、数组是n维的数据表,矩阵是2维数组。
4、数据框由若干向量和或因子组成,但必须等长。数据框与二维数组或矩阵类似,但在数据框中,行与列的意义是不同的,其中的列表示变量,而行表示观测。显示数据框时左侧会显示观测值的序号。
5、列表可以包含任何对象。
向量的下标
1、正整数:如x[c(1,4)]即x中第一个和第四个元素。注意下标从1开始计数,而不是从0开始。
2、负整数:如x[-(1:3)]即去除x中前三个元素。
3、字符串:需要向量中的元素具有names属性。
例:x=1:3; names(x)=c('a','b','c'); x[c('a','c')]
4、条件选取:可在下标中设置条件来选取合适的元素。
例:x=runif(10); x[x<0.5] #和length联用可用