Day6-学习R包-长安

最新推荐文章于 2024-09-26 17:12:37 发布

长安的学习自留地

最新推荐文章于 2024-09-26 17:12:37 发布

阅读量47

点赞数

文章标签：学习 r语言开发语言

本文链接：https://blog.csdn.net/weixin_41884716/article/details/132550052

版权

学习R包的安装

以R包 dplyr为例
dplry是R语言的数据分析包，类似于python中的pandas，能对dataframe类型的数据做很方便的数据处理和分析操作

1.R包安装高级模式

无需每次打开都运行都镜像配置

通过编辑R的配置文件 .Rprofile来实现

file.edit('~/.Rprofile') 编辑 Rprofile
添加两行代码
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
options 对应r包运行过程中的选项设置

2.安装加载

install.packages("dplyr") 安装
library(dplyr) 加载

3.dplyr五个基础函数

mutate(test, new = Sepal.Length * Sepal.Width) length 长 width 宽
新增一个列名为“new”的、值为“Sepal.Length”乘以“Sepal.Width”的列
3.1mutate()新增列

3.2select() 筛选

按列号筛选

select(test,1)
select(test,2) 筛选第二列
select(test,c(1,5)) 筛选第一和第五列

按列名筛选

select(test,Sepal.Length) 筛选名为“Sepal.Length”的列
vars <- c("Petal.Length", "Petal.Width") 内嵌函数？
select(test, one_of(vars)) 再进行筛选

3.3filter() 筛选行
filter(test,Species Species列中为setosa的行
filter(test,Species == "setosa"&Sepal.Length>5)
筛选Species列中为setosa且Sepal.Length大于五的行
filter(test,Species %in% c("setosa","versicolor"))
筛选Species列中为setosa和versicolor的行

3.4arrange() 按某1列或某几列对整个表格进行排序
arrange(test,Sepal.Length) 从小到大
arrange(test,desc(Sepal.Length)) 从大到小

3.5summarise() 汇总

summarise(test, mean(Sepal.Length), sd(Sepal.Length)) 计算Sepal.Length的平均值和标准差
group_by(test,Species) 按Species分组
summarise(test,mean(Sepal.Length),sd(Sepal.Length)) 计算Sepal.Length的平均值及标准差
summarise(group_by(test,Species),mean(Sepal.Length),sd(Sepal.Length))
先按species分组，再计算平均值及标准差

mean() sd()为函数summarise()内嵌公式

4.实用技能

4.1 来自dplyr包的管道函数：%>%
快捷键：Ctrl + shift +M

test %>% 
 group_by(Species) %>% 
 summarise(mean(Sepal.Length),sd(Sepal.Length))

4.2count统计某列的unique值
count(test,Sepal.Length)

4.3处理关系数据
left_join(test1,test2,by = "x") 以 test1为基准，连接
left_join(test2,test1,by = "x")
full_join(test1,test2,by ="x") 全连上
semi_join(x = test1,y = test2,by = "x") 返回x表中符合y表的值
anti_join(x = test2,y = test1,by = "x") 返回y表中不符合x表的值
bind_rows(test1,test2) 简单合并行
bind_cols(test1,test2) 简单合并列