#数据清理 ——dplyr package
加载包
library(dplyr)
library(hflights) #hflights是2011年从休斯顿起飞的航班创建本地数据框
tbl_df用于创建一个”local data frame”,相当于一个包装器,可以把data frame,sql数据类型转换成tbl对象。
优势在于打印的时候显示比较智能化,根据显示屏分辨率来确定显示的变量个数。
flights = tbl_df(hflights)
flights
dplyr包基础函数:
行过滤filter():根据准则筛选行
首参数是tbl对象;后面接着是筛选条件;返回也是一个data frame
##选择某一天的航班
fliter(flights,Month==-1,DayofMonth==1)
filter(flights,Month==1,DayofMonth==1) 等价于 flights[Month==1 & DayofMonth==1,]
filter(flights,Month==1 & DepTime>1400)
filter(flights,DepTime <1400| ArrTime > 1600 )To select rows by position, use slice():
slice(flights,1:5) #只显示前五行select:根据名字选择变量列
flight[,c(“DepTime”,”ArrTime”,”FlightNum”)]
#dplyr
select(flights