采用 教材:R语言实战(robert Kabacoff)
第二章:创建数据集
- 数据集通常是由数据构成的一个矩形数组,行表示观测,列表示变量。
- 对于以上术语:习惯用语:行列;统计学家:观测,变量;数据库分析师:记录,字段;数据挖掘、机器学习研究者:示例,属性。
- R语言可以处理的数据类型:数值型,字符型,逻辑型,复数型,原生型(字节)。
- 数据结构:标量,向量,矩阵,数组,数据框,列表。
向量
- 存储数值型,字符型或逻辑型数据的一维数组。
- 单个向量必须拥有相同的类别或模式,同一个向量中无法混杂不同数据类型的数据。
- 标量是只含一个元素的向量
- 补充
seq()函数:
- seq(0,1,length.out = 11)型:以0为首项,1为末项,长度为11的向量
- seq(1, 9, by = 2)型:以1为起始值,末项小于等于9,形成的等差数列
- seq(11)型,形成由1到11的间距为1的等差数列。
rep()函数 - rep(1:4, each = 2) 效果1,1,2,2,3,3,4,4
- rep(1:4, c(2,1,2,1)) 效果1,1,2,3,3,4
- rep(1:4, each = 2, len = 4) 效果1,1,2,2
- rep(1:4, each = 2, len = 10) 效果1,1,2,2,3,3,4,4,1,1
向量运算 - 向量运算:一般是对应元素之间的运算,所以两个或多个向量运算时,要求它们包含的元素个素相同(或一个是另一个的整数倍)。
- 获取向量某一个或多个子集,负号”-“表示删除的向量元素
x <- c(1,2,3,4)
show(x)
x1 <- x[1:3]
show(x1)
x2 <- x[c(2,1,4,3)]
show(x2)
x3 <- x[-1:-3]
show(x3)
x4 <- x[x>2]
show(x4)
- sum(xx) #和
max(xx) #最大值
min(xx) #最小值
range(xx) #取值范围
mean(xx) #平均值
var(xx) #方差
sort(xx) #从小到大排序
rev(xx) #反排列, 所以从大到小排序应该是rev(sort(xx))
rank(xx) #单元值大小顺序
prod(xx) #乘积,所以阶乘是prod(1:n)