Basic data manupulation

最新推荐文章于 2023-08-10 22:19:22 发布

水墨点滴

最新推荐文章于 2023-08-10 22:19:22 发布

阅读量202

点赞数 1

分类专栏： R

本文链接：https://blog.csdn.net/u011503382/article/details/78162992

版权

R 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

dplyr

dplyr包主要是对数据进行处理(过滤，切分，聚合，join等操作)的一个非常强大的包。

基于c++编写的，处理速度快
https://cran.rstudio.com/web/packages/dplyr/vignettes/introduction.html

基本函数

filter: 过滤观测
select：过滤变量
- 选择符合条件的子集合
- 同时支持 starts_with(),ends_with(),contains(), matches(), num_range(), one_of(), everything()
- 可以对变量进行重命名
arrange
mutate
数据扩展，增加新的变量
summarise

tbl_df将数据框转变为tbl对象, 主要是可以将一个sql对象转变为dplyr可以处理的tbl.dplyr可以处理data frame格式，但是如果你的数据比较大，建议还是讲其转变为tbl_df格式

例子

library('dplyr')
class(iris)
tbl<-tbl_df(iris)
class(tbl)
tbl

# filter
filter(tbl, Species=='virginica' & Sepal.Length >6 )

select(tbl, -Species)
select(tbl, starts_with('Pe'))  #选取以Pe开头的变量

# arrange: order
arrange(tbl,Species,Sepal.Width)  #同时按照多个

# mutate
mutate(tbl, new_length = 2*Petal.Length)
transmute(tbl, new_length = 2*Petal.Length)   # 只保留新的变量，删掉原来的

# summarise
summarise(tbl, total=sum(Sepal.Width)) #汇总
summarise(tbl, total=sum(Sepal.Width), MAX_VALUE = max(Sepal.Width)) #汇总
# 汇总函数必须是 vector转为一个数, min, mean, median,n, first, last

高级函数

join
left_join, right_join, inner_join
group_by
管道函数
%>%
do
colwise:对每一列调用函数,类似apply, 是plyr中函数
colwise(function)(df)

# join
# group_by
group_tbl = group_by(tbl, Species)  # 先分组
summarise(group_tbl, sum(Sepal.Width), count = n(),length(Sepal.Width))
# 管道函数
new_tbl=mutate(tbl, new_len=2*Petal.Length)
group_new_tbl=group_by(new_tbl, Species) 
summarise(group_new_tbl, LEN=sum(new_len))
# 等价于
tbl %>% mutate(new_len=2*Petal.Length) %>% group_by(Species) %>% summarise(LEN=sum(new_len))

# do(data, fun())

# colwise
# library('plyr')
# colwise(round)(iris[,1:4])

水墨点滴

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Basic data manupulation

dplyrdplyr包主要是对数据进行处理(过滤，切分，聚合，join等操作)的一个非常强大的包。基于c++编写的，处理速度快 https://cran.rstudio.com/web/packages/dplyr/vignettes/introduction.html基本函数filter: 过滤观测select：过滤变量选择符合条件的子集合同时支持 starts_with(),en
复制链接

扫一扫