数据前处理---dplyr包

最新推荐文章于 2022-10-24 09:21:18 发布

cutwind

最新推荐文章于 2022-10-24 09:21:18 发布

阅读量344

点赞数

分类专栏： r语言文章标签：函数数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cutwind/article/details/78186280

版权

r语言专栏收录该内容

11 篇文章 0 订阅

订阅专栏

用dplyr 包处理数据时，要先将数据转化成tbl_df 的tibble类型的数据。
可以直接用dplyr自带的tbl_df函数 tbl_df(data)
select: 选择操作
select(data,a,b,c)
select(data,a:c)
select(data,-a,-c)
select(data,-(a:c))

filter:类似SQL的where语句条件选择操作
filter(data,a==1,b==2)
filter(data,a==1&b==2)
filter(data,a==1&(b==2|b==3))

arrange:函数按给定的列名排序，默认升序，也可以用desc()降序
arrange(data,a) 升序
arrange(data,desc(a)) 降序

mutate: 变量变换、重新构造
mutate(data,y = a-b,z = a*0.6)#在data数据后加上y,z 字段

summarize:数据汇总
summarize(data,avg_a = mean(a),sum_b = sum(b))

group_by : 数据进行分组# 结合summarize 可以对数据进行分组汇总统计
summarize(group_by(data,a),
m = mean(b),
sd = sd(c),
…)

dplyr包中引进了一种操作符 %>% 称为管道函数
使用时用数据集(data)作为开头，
data %>% select(a,b,c) %>% filter(a==1&b==1&(c==2|c==3)) %>% group_by(c) %>% summarize(m=mean(a),sd=sd(b)) %>% arrange(sd)

挑选随机样本
1： sample_n 随机挑出指定个数
sample_n(data,10)# 挑10个
2：sample_frac(data,0.1)# 随机挑选10% 的数据

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

cutwind CSDN认证博客专家 CSDN认证企业博客

码龄7年

39: 原创

7万+: 周排名

28万+: 总排名

10万+: 访问

: 等级

1260: 积分

30: 粉丝

28: 获赞

8: 评论

117: 收藏

私信

关注

热门文章

分类专栏

最新评论

＜十四五规划以及2035年远景目标建议＞简单提炼
CSDN-Ada助手: 非常感谢CSDN博主的分享，这篇博客提炼了十四五规划以及2035年远景目标的建议，相信对读者们都有所启发。我觉得接下来可以继续写关于人工智能在未来社会应用的博客，探讨人工智能在医疗、教育、交通等领域的应用，以及对未来社会发展的影响。这样的技术文章对其他用户也会非常有帮助。相信你的下一篇博客会吸引更多的读者前来阅读！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
R---randomForest
qq_36237433: 随机森林R语言实现方法，文章附件中有代码，文章作为案例分析，附件中有原代码。Jiang，H, et al. (2022). The influence of the neighbourhood environment on peer-to-peer accommodations: A random forest regression analysis. Journal of Hospitality and Tourism Management, 51: 105-118. https://doi.org/10.1016/j.jhtm.2022.02.028
R--NaiveBayes
gggggu1999: 单词拼错了，是naiveBayes，其他很有帮助，谢谢
画像简述
原味吐司: 喜欢这种文风
本卦、互卦、变卦、错卦、综卦及作用
validatetoken: 真好😊

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。