数据清洗和整理:
总结整理的各种资源,包括使用dplyr包以及R自带的函数等等,主要用于数据预处理
- 筛选各种变量select()
- 根据一个或者多个变量进行排序arrange()
- 变量重命名以及增加新的变量names()或者colnames()&mutate()
- 根据某个变量进行分类汇总summarize()
- 简单随机抽样sample()
- 各种连接inner_join()等
- 按行或者按列进行合并rbind()或者cbind()
使用R中的数据
library(nycflights13)
library(dplyr)
1.筛选符合条件的数据
同样的效果,都是从数据集flight_df中筛选出变量
data1<-filter(flights_df, month == 1, day == 1)
flights_df[flights_df$month == 1 & flights_df$day == 1, ]
上面这段代码类似于sql中的select语句
select *
from flights_dt
where month=1 and day=1
2.筛选某些变量
通过列名来选择
select(flights_df, year, month, day)
通过 :来选择
select(flights_df, year:day)
通过 - 来去掉不需要的变量
select(flights_df, -(year:day))
3.排序
将flights_df数据集按照year,month,day的升序排列
arr