写在前面
之前分享了3月底发表的的《水稻微生物组时间序列分析》的文章,大家对其中图绘制过程比较感兴趣。一上午收到了超30条留言,累计收到41个小伙伴的留言求精讲。
我们将花时间把此文的原始代码整理并精讲,祝有需要的小伙伴能有收获。
本系列按原文4幅组图,共分为4节。本文是第4节,随机森林回归。
之前我们用了三篇文章,对随机森林的应用、分类、回归进行讲解和实战如下:
一文读懂随机森林在微生态中的应用
随机森林randomForest 分类Classification
随机森林randomForest 回归Regression
今天以图3中的一个子图,来实践一下冲击图的绘制。
前情提要
水稻微生物组时间序列分析
1模式图与PCoA
2a-相关分析
2b-散点图拟合
3-冲击图
先回顾一下图4的内容。
哪些菌可以作为生育时间的biomarkers?
图4. 水稻生育期相关的微生物标记物(biomarkers)。
A. 采用随机森林方法在两地点的两品种样本中鉴定了23个纲与生育时间相关。其中按贡献度由大到小排序。其中的子图为交叉验证评估的结果。
B. 热图展示23个年龄相关的biomarkers相对丰度。
方法简介:本图A采用R语言的RandomForest包进行分析,结果采用ggplot2的柱状图进行可视化,biomarkers按贡献度由大到小排序,并进行交叉验证模型的准确度和biomarkers数量的选择依据。图B采用pheatmap展示每个时间点biomarkers的相对丰度均值,其中biomarkers按出现最高丰度的时间排序。
回归分析
统计分析,主要基于两个表:OTU表和实验设计表,对于想进一步讨论分类级,别需要OTUs的物种注释文件。
这样基于这3个文件,可以制作出千变万化的统计分析图片,来作为论据支持你的文章(Story)。
时间序列做回归,主要是想建模来预测其它样品的生育时间。主要分为两部分,训练集建模,测试集验证。
我们主要有两个品种,种植在两个地点。这里先以A50建模,IR24验证的方案来演示。本实验较复杂 ,具体的方法会有多种组合。
读取文件
# 读取实验设计、和物种分类文件
tc_map =read.table("../data/design.txt