与SAS不同的是,SAS有数据步和过程步,而R拥有诸多的数据结构(向量,矩阵,数组,数据框),通过函数在这些数据结构上进行统计分析和创建图形。在这一点上,R与SAS的PROC IML过程步很相似。 这部分描述如何向R中输入或者导入数据,如何为统计分析做准备。涵盖了R数据结构,导入数据(从Excel,SPSS,SAS,Stata和ASCII文本文件),从键盘输入数据,创建一个与数据库管理系统交互的界面,导出数据(到Excel,SPSS,SAS,Stata和制表符分隔的文本文件),标注数据(变量标签和值标签)与列出数据。此外,介绍了丢失数据与数据值的处理方法。
1.数据类型R 有许多的数据类型,包括标量、向量(数值型、字符型和逻辑型)、矩阵、数据框和列表。
1.1向量
用下标引用向量的元素:
1.2矩阵矩阵中的所有列必须有相同的模式(数值型、字符型等)和相同的长度。 一般格式为: mymatrix <- matrix(vector, nrow=r, ncol=c, byrow=FALSE, byrow=TRUE表示矩阵按行填充数据,byrow=FALSE表示矩阵按列填充数据。 #生成一个5 X 4 的数值型矩阵 用下标标志矩阵的行、列和元素:
1.3数组数组与矩阵相似,但是维度可以大于2。 可通过help(array) 查看更想详细的信息。
1.4数据框数据框的概念较矩阵更为一般,不同列可以包含不同的模式(数值型、字符型、因子等) 。她与 SAS 和 SPSS 的数据集类似。
用下标来标志数据框中的行、列和元素:
1.5列表一些对象的有序集合。列表允许你整合若干(可能无关的)对象到单个对象名下。 #本例创建一个列表,其中有4个成份:一个字符串、一个数值型向量、一个矩阵和一个标量
#本例创建一个包含两个子列表的列表
用[[]]这种约定标志来标记列表的成份:
1.6因子名义变量(nominal varialbles)在R中成为因子。函数factor() 以一个整数向量的形式存储类别值,整数的取值范围是[1...k](其中k是名义型变量中唯一值的个数),同时一个由字符串(原始值)组成的内部变量将映射到这些整数上。 #性别变量有20个“male”实体和30个“female”实体 #将性别存储为20个1和30个2,并在内部将这些值关联为1=female,2=male(具体赋值根据字母顺序而定)。R将其作为名义型变量对待。
在统计过程与图形分析中,R 将名义型变量和有序型变量作为因子对待。你可以使用 factor( ) 和 ordered( ) 函数中的选项来控制整数值到字符串的映射(重写字母表的顺序)。 你也使用因子来创建值标签。更多关于因子的内容请参照 UCLA page.
1.7其他实用函数
|
R foundmental
最新推荐文章于 2022-06-28 00:32:29 发布
摘要: 与SAS不同的是,SAS有数据步和过程步,而R拥有诸多的数据结构(向量,矩阵,数组,数据框),通过函数在这些数据结构上进行统计分析和创建图形。在这一点上,R与SAS的PROC IML过程步很相似。