学习R包的安装
以R包 dplyr为例
dplry是R语言的数据分析包,类似于python中的pandas,能对dataframe类型的数据做很方便的数据处理和分析操作
1.R包安装高级模式
无需每次打开都运行都镜像配置
通过编辑R的配置文件 .Rprofile来实现
file.edit('~/.Rprofile')
编辑 Rprofile
添加两行代码
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
options 对应r包运行过程中的选项设置
2.安装加载
install.packages("dplyr")
安装
library(dplyr)
加载
3.dplyr五个基础函数
mutate(test, new = Sepal.Length * Sepal.Width)
length 长 width 宽
新增一个列名为“new”的、值为“Sepal.Length”乘以“Sepal.Width”的列
3.1mutate()
新增列
3.2select()
筛选
按列号筛选
select(test,1)
select(test,2)
筛选第二列
select(test,c(1,5))
筛选第一和第五列
按列名筛选
select(test,Sepal.Length)
筛选名为“Sepal.Length”的列
vars <- c("Petal.Length", "Petal.Width")
内嵌函数?
select(test, one_of(vars))
再进行筛选
3.3filter()
筛选行
filter(test,Species
Species列中为setosa的行
filter(test,Species == "setosa"&Sepal.Length>5)
筛选Species列中为setosa且Sepal.Length大于五的行
filter(test,Species %in% c("setosa","versicolor"))
筛选Species列中为setosa和versicolor的行
3.4arrange()
按某1列或某几列对整个表格进行排序
arrange(test,Sepal.Length)
从小到大
arrange(test,desc(Sepal.Length))
从大到小
3.5summarise()
汇总
summarise(test, mean(Sepal.Length), sd(Sepal.Length))
计算Sepal.Length的平均值和标准差
group_by(test,Species)
按Species分组
summarise(test,mean(Sepal.Length),sd(Sepal.Length))
计算Sepal.Length的平均值及标准差
summarise(group_by(test,Species),mean(Sepal.Length),sd(Sepal.Length))
先按species分组,再计算平均值及标准差
mean() sd()为函数summarise()内嵌公式
4.实用技能
4.1 来自dplyr包的管道函数:%>%
快捷键:Ctrl + shift +M
test %>%
group_by(Species) %>%
summarise(mean(Sepal.Length),sd(Sepal.Length))
4.2count统计某列的unique值
count(test,Sepal.Length)
4.3处理关系数据
left_join(test1,test2,by = "x")
以 test1为基准,连接
left_join(test2,test1,by = "x")
full_join(test1,test2,by ="x")
全连上
semi_join(x = test1,y = test2,by = "x")
返回x表中符合y表的值
anti_join(x = test2,y = test1,by = "x")
返回y表中不符合x表的值
bind_rows(test1,test2)
简单合并行
bind_cols(test1,test2)
简单合并列
教程内容来源 @生信星球 花花
学习了很多公式和R包的使用
接下来要寻找数据进行实战演练
实战中不断优化 理解代码和R包的运用