R语言学习笔记 - 创建数据集

最新推荐文章于 2024-09-21 10:47:48 发布

icaro_forever

最新推荐文章于 2024-09-21 10:47:48 发布

阅读量2.2k

点赞数

分类专栏： R语言文章标签： r语言数据

本文链接：https://blog.csdn.net/icaro_forever/article/details/51028444

版权

R语言专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、R语言简介

我们需要以数据科学家的角度来学习R语言，需要思考如何才能成功的处理、分析和理解数据：

l 获取数据（从各种数据源将数据导入程序）；

l 整理数据（编码缺失值、修复或删除错误数据）；

l 注释数据（记住每段数据的含义）；

l 总结数据（通过描述性统计量了解数据的情况）；

l 数据可视化（形象、准确的反映数据的特征）；

l 数据建模（解释数据间的关系，做假设检验）；

l 整理结果（创作具有出版水平的表格与图形）；

下面开始是几条R的基本语法：

1. R语句由函数和赋值构成。在R中，我们使用‘>-’而非传统的‘=’作为赋值符号。

2. R中的注释由‘#’开头，此后的任何文本都会被解释器忽略。

函数c()用于以向量的形式输入数据。

输入：函数source(“MyScript.R”)可在当前会话中执行名为“MyScript.R”的脚本。

输出（文本）：函数sink(“filename”)可将输出重定向到文件“filename”中覆盖原文件的内容。使用参数append=TRUE可将文本追加到文件后面而非覆盖它；使用参数split=TRUE可将输出同时发送到文件和屏幕上。

输出（图形）：在使用表1-4中的函数后，可用dev.off()将输出返回到终端（屏幕）。

包是R函数、数据、预编译代码以定义完善的格式组成的集合。计算机上存储包的目录称为库。libPaths()可以显示库所在的位置；library()能显示库中有哪些包，使用包名做参数便是加载该包；search()可现实以加载或可使用的包。install.packages()可以用于在线下载包，而installed.packages()则可用于查看已下载的包。

linux下R的批处理可以这样运行：R CMD BATCH options infile outfile

二、创建数据集

R拥有许多用于存储数据的对象类型，包括标量，向量，矩阵，数组，数据框和列表。

向量：向量是用来存储数值型、字符型、逻辑型数据的一维数组。执行组合功能的函数c()可用来创建向量。（注意：同一向量中无法混杂不同模式的数据）。我们可以使用方括号对向量中的数据进行位置访问。（注意：方括号中的下表可以是数值也可以是数值型向量。）另外，冒号可用于生成数值序列。

矩阵：仅含一种数据类型，可通过函数matrix()来创建矩阵。一般的使用格式为：

my_matrix <- matrix ( vector, nrow = number_of_rows,ncol = number_of_columns, byrow = logical_value, dimnames = list (char_vector_rownames, char_vector_colnames ) )

其中vector选项包含了矩阵的元素，nrow和ncol选项用于指定行和列的维数，row选项则表明矩阵是否应当按行填充，dimnames选项包含了以字符型向量标识的行名和列名。

可以通过小标和方括号来选择矩阵中的行、列或元素。x[i,]指第i行，x[,j]指第j列，x[i,j]指第i行第j列个元素。在选择多行或多列时，下标i和j可以为数值型变量。

数组：数组与矩阵类似，而维度可以大于2。数组可以通过array()函数创建：

myarray <- array( vector, dimensions,dimnames )

其中，vector包含了数组的数据；dimensions为数值型向量，给出了各维度下标的最大值，dimnames是个维度名称的标签列表。

数据框：数据框可以包含不同模式的数据。我们可以通过函数data.frame()创建：

mydata <- data.frame( col_1, col_2, col_3, …, row.name=col_1 )

col可为各种数据类型的向量。col的每一列都必须为统一的数据类型，但col彼此间可以不同。而row.name则是用于指定实例标识符。

选取数据框元素的方式可以为下标选取，也可为直接直接指定列名，此外还能在框名后接“$”+“变量名”。

函数attach()可将数据框添加到R的搜索路径中，而函数detach()则可将数据框移出搜索路径。在attach()之后和detach()之前，可以不加“数据框名$”的使用变量。但是若在attach之前便有同名变量，则原变量会覆盖数据框的变量。

函数with()可以进行局部操作。在with(“数据框名”, { “函数”||“赋值语句” } )的操作下可以将数据框中的变量覆盖原变量。但是若在with()中使用一般的赋值号“<-”则只能产生局部变量，一旦结束with()语句便会被释放。若想在with()中创建全局变量，则需使用特殊赋值号“<<-”。

R中的变量可以归结为名义型、有序型、连续型三种。类别变量（名义型）和有序类别变量（有序型）在R中被称为因子。函数factor()以整数向量的形式存储类别值。若要表示有序型变量、需要为factor()指定参数ordered=TRUE。对于字符型向量，factor()的默认排序方式是按照字典排序，可以使用levels选项来覆盖默认排序。

列表：列表是一些对象的有序集合。可用list()函数来创建列表：

mylist <- list( object1, object2, … )

我们可以在列表名后跟双重方括号来指定对象的名称或序号。

在为数据集添加标签时，可以使用factor()中的labels选项。