R语言入门学习笔记3——对结构性数据(表格)的处理(二): dplyr的使用

0. 开篇

这一系列是我学习R基础的笔记,它的特点是容易查找,当然也不太严谨。如果是想快速上手,或者喜欢通过多试代码而不是阅读的朋友,可以参考我的笔记。但是想要叙述更加完整的教程的话,更推荐我自己使用过的edX平台。

3. 对结构性数据(表格)的处理(二)

这一篇介绍dplyr包的使用。关于怎么导入数据到R当中请看我的上一篇<对结构性数据(表格)的处理(一)>,这里沿用上一篇的素材:
关于好莱坞最赚钱的故事的csv文件:
https://public.tableau.com/s/sites/default/files/media/HollywoodsMostProfitableStories.csv
文章不会用过多讲解,内容其实比较浅显,下面用一个个例子展示dplyr里面一些基本函数的用法.

3.5 处理列

3.5.0 准备

先安装并且声明使用dplyr包:

install.packages("dplyr")
library(dplyr)

3.5.1 select

假如我们要创建一个新的表格movies_perform概括电影的上映表现.同时,我也复习一下不用dplyr实现这一功能的两种方法,只不过dplyr使得命令更好写(特别在实现连续操作时):

movies_perform <- movies %>% select("Film",
                                    "Audience..score..",
                                    "Profitability",
                                    "Rotten.Tomatoes..",
                                    "Worldwide.Gross")
# 其一
movies_perform <- movies[,c("Film",
                           "Audience..score..",
                           "Profitability",
                           "Rotten.Tomatoes..",
                           "Worldwide.Gross")]
# 其二
movies_perform <- movies[c("Film",
                            "Audience..score..",
                            "Profitability",
                            "Rotten.Tomatoes..",
                            "Worldwide.Gross")]

3.5.2 select_if

# 选取所有数值类型的列
movies_numeric <- movies %>% select_if(is.numeric)
# 可以顺便看一下它们之间有没有线性关系
cor(movies_numeric)

3.5.3 mutate

# 建一列人民币计价的毛利润
movies %>% mutate(Worldwide.Gross_inRMB = Worldwide.Gross * 6.5)

3.6 处理行

3.6.1 filter

# 筛选毛利润大的电影
movies_numeric %>% filter(Worldwide.Gross > 100)
# 筛去有缺失的值的行
movies_numeric <- movies_numeric %>% filter_all(all_vars(!is.na(.)))
# 可以重新看一下它们之间有没有线性关系
cor(movies_numeric)
# 是不是结果完全不同了

功能很强大,详细的要看文档了

3.6.2 group_by

movies <- movies %>% filter_all(all_vars(!is.na(.)))
movies %>% group_by(Genre) %>% summarise(num = n(), mean_Worldwide.Gross = mean(Worldwide.Gross))
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
R语言是一种功能强大的开源编程语言和环境,广泛应用于数据分析和统计建模。入门R语言的过程,我可以分享一些我自己的笔记和经验。 首先,入门R语言需要准备好安装R语言和RStudio的环境。RStudio是R语言的一个集成开发环境,提供了更加友好的界面和便捷的操作。安装完毕后,我们可以打开RStudio开始学习。 接下来,建议通过在线教程、视频教程或者书籍来学习R语言的基础知识和语法。了解R语言数据结构,如向量、矩阵、数据帧等,掌握R语言的基本运算和函数操作等非常重要。 在学习过程中,我发现通过实际操作来巩固知识是非常有效的。可以尝试使用R语言处理一些简单的数据集,如读取数据数据清洗和数据可视化等。这样可以更好地理解R语言的功能和应用。 另外,熟悉R语言的常用包和函数也是非常重要的。R语言有很多强大的数据分析包,如ggplot2、dplyr和tidyr等。通过学习它们的基本用法和常见函数的操作,可以更好地进行数据分析和统计建模。 同时,我也建议多参与R语言的相关社区和论坛,与其他R语言爱好者交流和分享经验。这不仅可以解决遇到的问题,还能学习到更多实际案例和应用技巧。 最后,持续学习和实践是掌握R语言的关键。不断地阅读学习材料、参与项目和练习编程,都是提高R语言技能的有效途径。 希望以上简要的笔记入门R语言数据分析有所帮助。R语言具有强大的数据分析能力,相信通过不断学习和实践,你可以在数据分析领域取得更好的成果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值