R语言学习笔记 - 创建数据集

一、R语言简介

我们需要以数据科学家的角度来学习R语言,需要思考如何才能成功的处理、分析和理解数据:

l  获取数据(从各种数据源将数据导入程序);

l  整理数据(编码缺失值、修复或删除错误数据);

l  注释数据(记住每段数据的含义);

l  总结数据(通过描述性统计量了解数据的情况);

l  数据可视化(形象、准确的反映数据的特征);

l  数据建模(解释数据间的关系,做假设检验);

l  整理结果(创作具有出版水平的表格与图形);

下面开始是几条R的基本语法:

1.      R语句由函数和赋值构成。在R中,我们使用‘>-’而非传统的‘=’作为赋值符号。

2.      R中的注释由‘#’开头,此后的任何文本都会被解释器忽略。

函数c()用于以向量的形式输入数据。

输入:函数source(“MyScript.R”)可在当前会话中执行名为“MyScript.R”的脚本。

输出(文本):函数sink(“filename”)可将输出重定向到文件“filename”中覆盖原文件的内容。使用参数append=TRUE可将文本追加到文件后面而非覆盖它;使用参数split=TRUE可将输出同时发送到文件和屏幕上。

输出(图形):在使用表1-4中的函数后,可用dev.off()将输出返回到终端(屏幕)。

包是R函数、数据、预编译代码以定义完善的格式组成的集合。计算机上存储包的目录称为库。libPaths()可以显示库所在的位置;library()能显示库中有哪些包,使用包名做参数便是加载该包;search()可现实以加载或可使用的包。install.packages()可以用于在线下载包,而installed.packages()则可用于查看已下载的包。

linux下R的批处理可以这样运行:R CMD BATCH options infile outfile

 

二、创建数据集

R拥有许多用于存储数据的对象类型,包括标量,向量,矩阵,数组,数据框和列表。

向量:向量是用来存储数值型、字符型、逻辑型数据的一维数组。执行组合功能的函数c()可用来创建向量。(注意:同一向量中无法混杂不同模式的数据)。我们可以使用方括号对向量中的数据进行位置访问。(注意:方括号中的下表可以是数值也可以是数值型向量。)另外,冒号可用于生成数值序列。

矩阵:仅含一种数据类型,可通过函数matrix()来创建矩阵。一般的使用格式为:

my_matrix <- matrix ( vector, nrow = number_of_rows,ncol = number_of_columns, byrow =  logical_value, dimnames = list (char_vector_rownames, char_vector_colnames ) )

其中vector选项包含了矩阵的元素,nrow和ncol选项用于指定行和列的维数,row选项则表明矩阵是否应当按行填充,dimnames选项包含了以字符型向量标识的行名和列名。

可以通过小标和方括号来选择矩阵中的行、列或元素。x[i,]指第i行,x[,j]指第j列,x[i,j]指第i行第j列个元素。在选择多行或多列时,下标i和j可以为数值型变量。

数组:数组与矩阵类似,而维度可以大于2。数组可以通过array()函数创建:

myarray <- array( vector, dimensions,dimnames )

其中,vector包含了数组的数据;dimensions为数值型向量,给出了各维度下标的最大值,dimnames是个维度名称的标签列表。

数据框:数据框可以包含不同模式的数据。我们可以通过函数data.frame()创建:

mydata <- data.frame( col_1, col_2, col_3, …, row.name=col_1 )

col可为各种数据类型的向量。col的每一列都必须为统一的数据类型,但col彼此间可以不同。而row.name则是用于指定实例标识符。

选取数据框元素的方式可以为下标选取,也可为直接直接指定列名,此外还能在框名后接“$”+“变量名”。

函数attach()可将数据框添加到R的搜索路径中,而函数detach()则可将数据框移出搜索路径。在attach()之后和detach()之前,可以不加“数据框名$”的使用变量。但是若在attach之前便有同名变量,则原变量会覆盖数据框的变量。

函数with()可以进行局部操作。在with(“数据框名”, { “函数”||“赋值语句” } )的操作下可以将数据框中的变量覆盖原变量。但是若在with()中使用一般的赋值号“<-”则只能产生局部变量,一旦结束with()语句便会被释放。若想在with()中创建全局变量,则需使用特殊赋值号“<<-”。

R中的变量可以归结为名义型、有序型、连续型三种。类别变量(名义型)和有序类别变量(有序型)在R中被称为因子。函数factor()以整数向量的形式存储类别值。若要表示有序型变量、需要为factor()指定参数ordered=TRUE。对于字符型向量,factor()的默认排序方式是按照字典排序,可以使用levels选项来覆盖默认排序。

列表:列表是一些对象的有序集合。可用list()函数来创建列表:

mylist <- list( object1, object2, … )

我们可以在列表名后跟双重方括号来指定对象的名称或序号。

在为数据集添加标签时,可以使用factor()中的labels选项。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值