系列文章目录
实验数据
1. systation 数据集
systation.csv 中包含的是沈阳地铁站相关线路的经纬度数据,字段介绍如下表:
station | 站名 | line | 线路编号 |
line_id | 站编号 | gps_lon | 站处于的经度 |
gps_lat | 站处于的维度 |
2. SY-20150401 数据集
SY-20150401.csv 中提供的是一卡通刷卡数据,字段介绍如下表:
V1 | 卡编号 | V2 | 刷卡日期 |
V3 | 刷卡时间 | V4 | 刷卡站点 |
V5 | 刷卡类型 | V6 | 票价 |
V7 | 是否优惠 |
注:输入数据后将字段名,重命名为c(“card_id”,“date”,“time”,“station”,“vehicle”,“money”,“property”)
提示:以下是本篇文章正文内容
一、实验目的
在学习了R 的一些处理数据的方法后,建议学习下其他数据处理的第三方包,如之前介绍的data.table。
推荐学习包:dplyr 、tidyr 和lubridate
二、实验内容
题目1 数据处理【只用 SY-20150401.csv】
统计每 5 分钟,各站点的进出站流量(说明:00:00:01 在第一个 5 分钟内,00:10:13 在第三个 5 分钟内),由于一天可能多次乘坐地铁,根据卡号和进站时间,查询最近出站的时间,作为本次出站时间。
参考函数 lubridate::hms,lubridate:: period_to_seconds。
处理的最终结果:dataframe(名称 trade.metro.in.out )。
card.id | 卡id | time.in | 进站时间 |
line.in | 进站路线 | station.in | 进站站点 |
M5.in | 第几个5分钟进站 | time.out | 出站时间 |
line.out | 出站线路 | station.out | 出站站点 |
money | 票价 | M5.out | 第几个5分钟出站 |
duration | 乘坐时间(单位:秒) |
提交的表格按照card.id 排序。Notebook 中展示输出结果为head(trade.metro.in.out,10),并输出本地文件shmetro_line_in_out.csv。
题目2 统计进站与出站之间的流量
通过题目 1 中的 dataframe(trade.metro.in.out)进行统计,统计进站与出站之间的流量;然后选取流量最大的前 10 个站点,在 Notebook 中查看前 6 条。
三、实现过程与实验结果
题目1 数据处理【只用 SY-20150401.csv】
统计每 5 分钟,各站点的进出站流量(说明:00:00:01 在第一个 5 分钟内,00:10:13在第三个5分钟内),由于一天可能多次乘坐地铁,根据卡号和进站时间,查询最近出站的时间,作为本次出站时间。
提交的表格按照card.id排序。Notebook中展示输出结果为head(trade.metro.in.out,10)并输出本地文件shmetro_line_in_out.csv。
处理的最终结果:dataframe(名称 trade.metro.in.out)
card.id | 卡id | time.in | 进站时间 |
line.in | 进站路线 | station.in | 进站站点 |
M5.in | 第几个5分钟进站 | time.out | 出站时间 |
line.out | 出站线路 | station.out | 出站站点 |
money | 票价 | M5.out | 第几个5分钟出站 |
duration | 乘坐时间(单位:秒) |
# 读取数据
df <- read.csv("R\\data\\ex5\\SY-20150401.csv")
# 数据维度
dim(df)
## [1] 1048575 7
# 查看数据
head(df)
## X2002062859 X2015.4.1 X16.41.37 X2号线工业展览馆站 地铁 X0 非优惠
## 1 3103531702 2015/4/1 9:23:11 2号线金融中心站 地铁 4 非优惠
## 2 3001771678 2015/4/1 16:41:23 1号线十三号街站 地铁 0 非优惠
## 3 400679513 2015/4/1 16:47:09 1号线迎宾路站 地铁 0 非优惠
## 4 3102186320 2015/4/1 18:58:08 1号线七号街站 地铁 4 非优惠
## 5 740476054 2015/4/1 11:36:33 2号线市府广场站 地铁 0 非优惠
## 6 2301712030 2015/4/1 18:04:23 1号线开发大道站 地铁 0 非优惠
# 字段重命名
colnames