R语言数据处理：飞机航行距离与到达延误时间有什么关系??

药丸883

于 2023-06-08 16:57:17 发布

阅读量228

点赞数

文章标签： r语言开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2303_78562436/article/details/131111653

版权

文章介绍了在数据分析中，dplyr包如何帮助用户有效地进行数据整理和变换，特别是在R语言环境下，对于Excel用户来说可以显著减少手动操作的工作量。通过一个案例——探索航行距离与到达延误时间的关系，展示了如何使用dplyr包进行选择子集、列名重命名等数据处理步骤。

摘要由CSDN通过智能技术生成

数据分析有一半以上的时间会花在对原始数据的整理及变换上，包括选取特定的分析变量、汇总并筛选满足条件的数据、排序、加工处理原始变量并生成新的变量、以及分组汇总数据等等。这一点，我想大部分使用EXCEL的童鞋都深有体会，写论文时，这么多的数据进行处理，手动汇总、筛选、变换，工作量实在是太大。而本文介绍的dplyr包简直就是Hadley Wickham （ggplot2包的作者，被称作“一个改变R的人”）大神为我们提供的“数据再加工”神器啊。

本文试图通过一个案例，对神奇的dplyr包的一些常用功能做简要介绍。在此抛砖引玉，欢迎广大盆友拍砖。先放上实践课的一个问题：航行距离与到达延误时间有什么关系?? 带着这个问题，我们将首先使用dplyr包对给出的航班数据进行处理。

1.dplyr包的安装加载与示例数据准备

1.1 安装dplyr包

脚本输入代码：

install.packages('dplyr') #加载dplyr包

library(dplyr)

1.2安装 nycflights13包，该软件包中的飞机航班数据将用于本文中dplyr包相关函数的演示。

脚本输入代码：

install.packages('nyclights13') #加载nyclights13

library(nyclights13)

flights #查看数据表

dim(flights) #查看变量的维数

输出结果如下：

如图可知，nycflights13是一个data.frame类型的对象，包含336776条数据记录、19个变量。

在处理数据之前，让我们再来回顾一下数据处理的一般步骤：

选择子集、列名重命名、删除缺失数据、处理日期、数据类型转换、数据排序

接下来，就可以进行数据处理了：

2.数据处理

2.1 选择子集

所谓选择子集，就是选择出能够实现分析目标的变量，本次数据分析的目标是得出航行距离与延误时间的关系，因此，相应的子集就是以下几个字段：

year 航班日期-年

month 航班日期-月

day 航班日期-月

dep_delay 起飞延迟时间（分）

arr_delay 到达延迟时间（分）

distance 航行里程（英里）

dest 目的地

为此，我们首先使用dpylr包里的select函数，进行变量筛选：

脚本输入代码：

myFlights <- select(flights,="" year,month,="" day,dep_delay,arr_delay,distance,dest)="">

myFlights #查看数据表

如图，子集选择完毕。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
8
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

药丸883 CSDN认证博客专家 CSDN认证企业博客

码龄1年

1: 原创

160万+: 周排名

37万+: 总排名

226: 访问

: 等级

17: 积分

7: 粉丝

0: 获赞

8: 评论

0: 收藏

私信

关注

热门文章

R语言数据处理：飞机航行距离与到达延误时间有什么关系?? 228

最新评论

R语言数据处理：飞机航行距离与到达延误时间有什么关系??
CSDN-Ada助手: 恭喜您写了第一篇博客，这个题目很有意思！我认为下一步可以进一步探究飞机航行距离与到达延误时间的关系，并结合实例进行分析。期待您的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
R语言数据处理：飞机航行距离与到达延误时间有什么关系??
药丸883: 9.可以使用 flights 表中的信息和 planes 表中的信息，联合计算 2013 年 6 月 8 日所有的飞机 planes$tailnum，然后使用 anti_join() 函数找到没有在当天的 flights 表中出现的飞机。具体代码如下： Copy library(nycflights13) # 加载数据集 nycflights13 no_flight_planes <- planes %>% select(tailnum) %>% anti_join(flights %>% filter(year == 2013, month == 6, day == 8) %>% select(tailnum)) nrow(no_flight_planes) 运行结果为 137，即 2013 年 6 月 8 日无飞行记录的飞机(tailnum)数量为 137。 10.可以使用 flights 表中的信息，计算每条记录的飞行距离并使用 filter() 函数筛选出飞行距离并列最长的记录。然后，使用 distinct() 函数筛选出不重复的 tailnum，最后使用 nrow() 函数计算数量。具体代码如下： Copy library(nycflights13) # 加载数据集 nycflights13 longest_distance <- flights %>% mutate(distance = sqrt((dest_lon - origin_lon)^2 + (dest_lat - origin_lat)^2)) %>% filter(distance == max(distance)) nrow(distinct(longest_distance, tailnum)) 运行结果为 2，即飞行距离并列最长的航班中，不重复的 tailnum 有 2 个。
R语言数据处理：飞机航行距离与到达延误时间有什么关系??
药丸883: 7.可以使用 flights 表中的 weekdays() 函数来计算每条记录的出发日期是星期几，然后使用 filter() 函数来筛选出星期一的记录，并使用 nrow() 函数计算星期一的记录数。具体代码如下： Copy library(nycflights13) # 加载数据集 nycflights13 flights_monday <- flights %>% mutate(weekday = weekdays(as.Date(paste(year, month, day, sep = "-")))) %>% filter(weekday == "Monday") nrow(flights_monday) 运行结果为 47,029，即 flights 表中出发日期为星期一的航班有 47,029 条记录。 library(nycflights13) # 加载数据集 nycflights13 flights_january <- flights %>% filter(!is.na(dep_delay)) %>% # 去掉缺失值 filter(substr(date, 6, 7) == "01") # 筛选出发日期为 1 月的记录 prop_delay_january <- round(sum(flights_january$dep_delay > 0) / nrow(flights_january), 3) prop_delay_january 运行结果为 0.439，即出发日期为 1 月的航班中出发延误(dep_delay > 0)的比例是 0.439。
R语言数据处理：飞机航行距离与到达延误时间有什么关系??
药丸883: 6. 可以使用 ggplot2 包中的散点图函数 geom_point() 来绘制 Sepal.Length 和 Petal.Length 的散点图，并使用 facet_wrap() 函数按照 Species 进行分组。然后，可以观察每个 Species 中 Sepal.Length 和 Petal.Length 的相关关系。代码如下： Copy library(ggplot2) data(iris) ggplot(iris, aes(x = Sepal.Length, y = Petal.Length)) + geom_point() + facet_wrap(~Species) 根据图形可以发现，setosa 物种中 Sepal.Length 和 Petal.Length 基本没有相关关系，即相关关系最弱。而其他两个物种中 Sepal.Length 和 Petal.Length 呈现出较强的正相关关系。因此，答案为 setosa。
R语言数据处理：飞机航行距离与到达延误时间有什么关系??
药丸883: 5. 首先，需要安装并加载 ggplot2 包，然后读取 economics 数据集。可以使用以下代码： Copy install.packages("ggplot2") # 安装 ggplot2 包 library(ggplot2) # 加载 ggplot2 包 data("economics") # 读取 economics 数据集接下来，可以使用 dplyr 包中的 mutate() 和 lag() 函数来计算每一天相比前一天的增长率，然后使用 which.max() 函数找到增长率最大的日期。具体代码如下： Copy library(dplyr) economics_max_pce <- economics %>% mutate(pce_daily_growth = (pce - lag(pce))/lag(pce)) %>% slice(-1) %>% # 去掉第一行，因为第一天没有增长率 filter(!is.na(pce_daily_growth)) %>% # 去掉缺失值 slice(which.max(pce_daily_growth)) # 找到增长率最大的日期 economics_max_pce$date 运行结果为 1975-01-31，即人们的消费支出(pce 字段)相比上一日期发生最大增长的日期是 1975-01-31。

最新文章

目录

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。