文章目录
R语言数据处理——基础篇 data.frame基本操作
打算用两篇博客来记录下平时使用R语言进行数据处理、绘图遇见的一些问题。第一篇首先介绍下使用data.frame处理数据的常用操作,第二篇总结下使用ggplot2绘图时常用的一些操作。每篇博客在基础介绍完后总结下自己遇到过的问题,不定时补充。
data.frame的创建
可以从文件和构造函数创建data.frame。
- 可以使用以下几个函数从csv、excel文件创建data.frame。
函数名 | 包含库 |
---|---|
read.csv | - |
read.csv2 | - |
read_excel | readxl |
read_xls | readxl |
read_xlsx | readxl |
read.csv(file, header = TRUE, sep = ",", quote = "\"",
dec = ".", fill = TRUE, comment.char = "", ...)
read.csv2(file, header = TRUE, sep = ";", quote = "\"",
dec = ",", fill = TRUE, comment.char = "", ...)
主要参数包括
file:文件路径。注意使用相对路径时,是相对工作目录,工作目录绝对路径使用getwd()
查看,以及使用setwd()
设置。
header:是否将文件第一行当作行名,默认为TRUE
。选FALSE
时依然会读取第一行,只不过会自动生成默认行名,使用rowname()<-
更改即可。
sep:csv文件的分隔符,默认为",",常见的分隔符包括","、" “、”;"。
quote:字符的表示方式,默认用" “包围引号。
dec:小数点的表示方式,默认为”.";
fill:当各列变量数不一样时是否填补,默认为TRUE
。注意补充的类型与读取文件后,程序判定的列变量类型有关,如果列变量是数字会用NA
,如果是字符则会用""
,不会用NULL
填补也不能用is.null()
检查。
comment.char:指定读取文件中的注释字符,注释字符及其后不会被读取。
library(readxl)
read_excel(path, sheet = NULL, range = NULL, col_names = TRUE,
col_types = NULL, na = "", trim_ws = TRUE, skip = 0,
n_max = Inf, guess_max = min(1000, n_max), progress = readxl_progress(),
.name_repair = "unique")
read_xls(path, sheet = NULL, range = NULL, col_names = TRUE,
col_types = NULL, na = "", trim_ws = TRUE, skip = 0