tidyr包主要提供了数据整理和清洗的功能,包括
1. 数据框的变形
2. 处理数据框中的空值
3. 根据一个表格衍生出其他表格
4. 实现行或列的分隔和合并
该包将要用的数据处理成标准且统一的数据框(Tidy Data)才能进行下一步的数据处理和做图。
R将整洁数据定义为:每个变量的数据存储在自身的列中,每个观测值的数据存储在其自身的行中。
安装 tidyr
install.packages("tidyr")
使用 tidyr
library("tidyr")
函数查询:https://cran.r-project.org/web/packages/tidyr/tidyr.pdf
separate() 将一列按照分隔符分隔为多列
separate(data, col, into, sep = "[^[:alnum::]]+", remove = TRUE, convert = FALSE, extra = "warn", fill = "warn", ...)
data:数据框
col:需要被拆分的列
into:新建的列名,即分隔后新得到列的列名,为字符串向量
sep:被拆分列的分隔符
remove:是否删除被分割的列
unite() 将多列按照指定的分隔符合并为一列
unite(data, col, ..., sep = "_", remove = TRUE)
data:为数据框
col:被组合后得到了新列的名称
...:指定哪些列需要被组合
sep:组合列之间的连接符,默认为下划线
remove:是否删除被组合的列
gather() 将宽数据转为长数据
spread() 将长数据转为宽数据