数据前处理---dplyr包

用dplyr 包处理数据时,要先将数据转化成tbl_df 的tibble类型的数据。
可以直接用dplyr自带的tbl_df函数 tbl_df(data)
select: 选择操作
select(data,a,b,c)
select(data,a:c)
select(data,-a,-c)
select(data,-(a:c))

filter:类似SQL的where语句 条件选择操作
filter(data,a==1,b==2)
filter(data,a==1&b==2)
filter(data,a==1&(b==2|b==3))

arrange:函数按给定的列名排序,默认升序,也可以用desc()降序
arrange(data,a) 升序
arrange(data,desc(a)) 降序

mutate: 变量变换、重新构造
mutate(data,y = a-b,z = a*0.6)#在data数据后加上y,z 字段

summarize:数据汇总
summarize(data,avg_a = mean(a),sum_b = sum(b))

group_by : 数据进行分组# 结合summarize 可以对数据进行分组汇总统计
summarize(group_by(data,a),
m = mean(b),
sd = sd(c),
…)

dplyr包中引进了一种操作符 %>% 称为管道函数
使用时用数据集(data)作为开头,
data %>% select(a,b,c) %>% filter(a==1&b==1&(c==2|c==3)) %>% group_by(c) %>% summarize(m=mean(a),sd=sd(b)) %>% arrange(sd)

挑选随机样本
1: sample_n 随机挑出指定个数
sample_n(data,10)# 挑10个
2:sample_frac(data,0.1)# 随机挑选10% 的数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值