目录
1.1安装包
install.packages(c("ggplot2","gcookbook"))
系统可能提示你选择一个下载镜像,选择离你最近的一个速度更快;选择Austria站点的版本是最佳新的,因为这是CRAN的主服务器。
CRAN是R包的仓库,是R默认使用的库。此外,还有几个软件包仓库,如Bioconductor,它是与及因素分析相关的包的软件包仓库。
1.2加载包
library(ggplot2)
library(gcookbook)
library加载一个软件包。一个package并不是一个软件库library,library指的是一个包含了若干个packages的目录。
1.3加载分隔符式的文本文件
data <- read.csv("datafile.csv")
数据集首行没有列名
data <- read.csv("datafile.csv",header = FALSE)
R里bool型必须全大写TRUE,FALSE;Python里必须只有首字母大写True,False。
手动为列名赋值
name(data) <- c("Column1","Column2", "Column3")
\t表示用制表符分隔
data <- read.csv("datafile.csv", sep = "\t")
数据框将会自动将字符串存储为因子
data <- read.csv("datafile.csv",stringsAsFactors = FALSE)
转换为factor
data$Sex <- factor(data$Sex)
read.csv()是对read.table()一个便捷的封装函数。更多的输入控制参见 ?read.table。
1.4从Excel文件中加载数据
install.packages("xlsx")
library(xlsx)
data <- read.xlsx("datafile.xlsx",1) #读取Excel中第一张工作表
#指定
data <- read.xlsx("datafile.xlsx",sheetIndex = 1)
data <- read.xlsx("datafile.xlsx",sheetName = "Revenues")
#老版本 .xls
install.packages("gdata")
library(gdata)
data <- read.xls("datafile.xls")
data <- read.xls("datafile.xls", sheet = 2)
对于xlsx包,需要安装Java;对于gdata包,需要安装Perl。Perl在Linux和Mac OS X上是自带的,但在Windows上没有,需要后者自己安装ActiveState Perl
如果嫌折腾,更简单的替代方案是打开Excel文件后另存为标准的文本格式,比如CSV。
1.5从SPSS文件中加载数据
install.packages("foreign")
library(foreign)
data <- read.spss("datafile.sav")
foreign包里其他的函数:
read.octave() : Octave & MATLAB。
read.systat() : SYSTAT。
read.xport() : SAS XPORT。
read.dta() : Stata。
输入ls("package:foreign")查看该包中所有函数的列表。