数据集
2.1数据集概念
概念:通常是由数据构成的矩形数据
不同行业对数据集的行和列叫法不同
行业人
行
列
统计学家
观测(observation)
变量(variable)
数据库分析师
记录(record)
字段(field)
数据挖掘和机器学习研究中
示例(example)
属性(attribute)
可处理的数据类型(模式):数值型、字符型、逻辑型、复数型、原生型(字节)
存储数据的结构:标量、向量、数据、数据框和列表
实例的标识符:rownames(行名);实例的类别型:因子(factors)
2.2数据结构
这节讲了几个数据结构,向量、矩阵、数组、数据框,前三种分别是一维、二维、大于二维的,它们共同点是一个数据结构中,仅能用一种数据的模式,而数据框则可以多种模式。
一些定义
对象:可复制给变量的任何事物,包括常量、数据结构、函数、图形
模式:描述对象如何存储和某各类
数据框:存储数据的一种结构(列表示变量,行表示观测),一个数据框可存储不同类型的变量(如数值型、字符型)
2.2.1 向量(一维数据,数值型、字符型、逻辑型)
a
b
c
注意:1.字符型的向量,元素要加“ ”或者' ',数值型和逻辑型不需要。
2.同一向量,只能用一种模式的数据;
3.标量是只含一个元素的向量
#标量是 只含一个元素的向量
f
g
h
方括号的作用:元素的位置数值,具体如何访问向量中的元素,看下面代码
> a
> a[3] #向量a的第三个元素
[1] "h"
> a[c(1,3,5)] #向量a的第1个、第3个、第5个元素
[1] "k" "h" "c"
> a[2:6] #生成一个数值序列,向量a的从第2个到第6个的元素。等价于a(
[1] "j" "h" "a" "c" "m"
#两种方式生成的向量a一样
> a
> a
[1] 2 3 4 5 6
> a
> a
[1] 2 3 4 5 6
2.2.2 矩阵(二维数值,字符型、数值型、逻辑型)
注意:矩阵中仅能包含一种数据类型
函数matrix()
作用:创建矩阵
格式:myymatrix
其中,vector--矩阵的元素;nrow、ncol--分别制定行和列的维数;dimnames--可选的、以字符型向量表示的行名和列名;byrow--矩阵行行填充(byrow = TRUE)或者按列填充(byrow =FALSE),默认是按列。
matrix用法实例
eg1. 创建一个元素为1到20,大小5*4的矩阵,默认按列排列。
> y
> y
[,1] [,2] [,3] [,4]
[1,] 1 6 11 16
[2,] 2 7 12 17
[3,] 3 8 13 18
[4,] 4 9 14 19
[5,] 5 10 15 20
eg2.
> cells
> rnames
> cnames
#按列排列(也是默认方式)
> mymatrix
> myma