数据处理包plyr和dplyr包的整理

常见的数据处理包
dplyr——package

1.数据对象:tbl对象
使用dplyr包预处理时建议使用tbl_df()或tbl_cube()或tbl_sql()函数将原数据转换为tbl对象

2.观测筛选
将指定条件的观测筛选出来:filter()函数
filter(.data,…)
.data为tbl对象
…为观测筛选条件,类似于subset()函数,但不同的是filter()函数不能筛选某些关心的变量变量

library(dplyr)
df <- data.frame(x = c("a","b","c","a","b","e","d","f"),y = c(1,2,3,4,5,6,7,8))
dftbl <- tbl_df(df)
filter(dftbl,x %in% c("a","b"))

3.变量选取
select()函数可以筛选指定的变量,而且选择变量时也可以重新命名变量。如果要剔除某些变量,只需要在变量前加上负号”-“。
select()函数,传递的参数:
starts_with(x,ignor.case = TRUE) # 选择以字符x开头的变量
ends_with(x,ignore.case = TRUE) # 选择以字符x结尾的变量
contains(x,ignore.case = TRUE) #选择所有包含x的变量
matches(x,ignore.case = TRUE) #选择匹配正则表达式的变量
num_range(“x”,1:5,width = 2) #选择从x01到x05的数值型变量
one_of(“x”,”y”,”z”) #选择包含在声明变量中的变量
everything() #选择所有变量,一般调整数据集中变量顺序时使用
示例:

# 将dftbl数据集中的y变量放到x变量之前
select(dftbl,everything())

#筛选变量的同时,重新命名变量
select(dftbl,x1 = 1,y1 = y)

4.重命名变量
rename(tbl,newname = oldname,…)

 rename(dftbl,x1 = x,y1 = y)

5.数据排序
数据预处理的过程中往往也需要按某些变量进行排序:arrange()函数实现语法:
arrange(.data,…)
arrange()函数默认以某个变量进行升序,如需降序则desc(var_name)

arrange(dftbl,y) # y变量升序
arrange(dftbl,desc(y)) #降序操作

6.数据扩展
通过mutae()函数可以在原始数据集的基础上扩展新变量,并保留原始变量
mutate(.data,…)

mutate(dftbl,z = y^2+y-10)

同样可以进行数据扩展的函数transmute(),与mutate()函数不同的是,该函数扩展新变量的同时将删除所有原始变量,结果中只有扩展变量。

transmute(dftbl,z =y^2)

7.数据聚合
在数据库操作中,往往需要进行聚合函数的应用,这里可以使用summarize()函数实现数据集聚合操作.个人理解的聚合函数就是对数据集中的变量进行统计计算。
语法如下:
summarize(.data,…)
可以用来聚合的函数有:
min(),max(),mean()…等统计量,以及IQR() #返回四分位极差
n() # 返回观测个数
n_distinct() #返回不同的观测个数
first() # 返回第一个观测
last() #返回最后一个观测
nth() #返回n个观测

  • 5
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值