r语言note_xmind

最新推荐文章于 2022-05-07 19:50:37 发布

斐非韭

最新推荐文章于 2022-05-07 19:50:37 发布

阅读量1.7k

点赞数

分类专栏： R

本文链接：https://blog.csdn.net/weixin_39060517/article/details/114934522

版权

R 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

R

删除空间已有值

rm(list=ls())

变量重新编码

df $a g e [d f$ age>75]<-“Elder”

缺失值

is.na()

newdata <- na.omit(df)

列重命名

names(df)[2]<-‘testdate’

dplyr

转换

ds<-tbl_df(mtcars)
df<-as.data.frame(ds)
tbl_df()可用于将过长过大的数据集转换为显示更友好的 tbl_df 类型。使用dplyr包处理数据前，建议先将数据集转换为tbl对象。

filter

filter() 和slice()函数可以按给定的逻辑条件筛选出符合要求的子数据集, 类似于 base::subset() 函数，但代码更加简洁, 同时也支持对同一对象的任意个条件组合（表示AND时要使用&或者直接使用逗号），返回与.data相同类型的对象。原数据集行名称会被过滤掉。
filter(mtcars,cyl<5 &vs==1)
filter(mtcars,cyl %in%c(4,6)) #cyl=4 6的行
slice(mtcars, 5:n()) #第5行到最后一行
mydata11 <- filter(mydata, Index %in% c(“A”, “C”)) #%in%运算符可用于选择多个项目。在下面的程序中，我们告诉R选择Index列中的’A’和’C’行。
mydata14 <- filter(mydata, grepl(“Ar”, State)) #grepl 在state列中搜索包含“Ar”

arrange()

arrange(mtcars,cyl,disp)
类似order()
arrange(mtcars,desc(disp))

selet()

select(iris,start_with(“petal”))
select(iris,-start_with(“petal”))
包括starts_with，ends_with，contains，matches，one_of，num_range和everything等,筛选列

mutate()

Subtopic 1
mutate()和transmute()函数对已有列进行数据运算并添加为新列，类似于base::transform() 函数, 不同的是可以在同一语句中对刚增添加的列进行操作。mutate()返回的结果集会保留原有变量，transmute()只返回扩展的新变量。原数据集行名称会被过滤掉。增加列
mutate(mtcars,wt_kg=wt*453.592,wt_t=wt_kg/1000)

distinct()

去重类似unique()
distinct(df,df $c 1, d f$ c2,.keep_all=T)

sample_n()

sample_n(mtcars,10,replace=TRUE) #有重复的取50行
sample_frac(mtcars,0.1) # 无重复取0.1数据

group_by()

by_cyl<-group_by(mtcars,cyl)

summarise()

summarise(mtcars, max(disp), min(disp))
summarise_at(mydata, vars(Y2005, Y2006), funs(n(), mean, median))
summarise_if(mydata, is.numeric, funs(n(),mean,median))
summarise_all(mydata[“Index”], funs(nlevels(.), nmiss=sum(is.na(.)))) #检查分类（因子）变量中的级别/类别数量和缺失观察数量。

t <- summarise_at(group_by(mydata, Index), vars(Y2011, Y2012), funs(n(), mean(., na.rm = TRUE)))或
t <- mydata %>% group_by(Index) %>%

summarise_at(vars(Y2011:Y2015), funs(n(), mean(., na.rm = TRUE)))
#通过变量Index计算变量Y2011和Y2012的变量的计数和均值。

join()

semi_join(df1, df2, by = c(“CustomerId” = “CustomerId”))
inner_join() full_join()
semi_join() anti_join()
left_join() right_join()

ifelse

if_else(condition,true, false, missing = NULL)

bind

bind_row()
bind_cols()
combine()

set

intersect() #交集
setdiff()

%>% 管道

# 对数据进行分布处理：分组-汇总-排序-打印
tbl_hflights %>%
  group_by(UniqueCarrier) %>%
  summarize(m = mean(AirTime,na.rm = TRUE), sd = sd(AirTime,na.rm = TRUE)) %>%
  arrange(desc(m),sd) %>%
  head(10)