MaAsLin2是下一代MaAsLin(与线性模型的微生物组多变量关联),用于有效确定临床数据和微生物组学特征之间的多变量关联。 MaAsLin2依靠通用线性模型来适应大多数现代流行病学研究设计,包括横断面研究和纵向研究,以及各种过滤,归一化和变换方法。该统计方法可以使用命令行或者R实现。
目录
命令行实现
- 下载源: MaAsLin2.master.zip
- 解压压缩包:
$ tar xzvf Maaslin2-master.zip
- 安装edgeR and metagenomeSeq包.
- 安装CRAN依赖包:
$ R -q -e "install.packages(c('lmerTest','pbapply','car','dplyr','vegan','chemometrics','ggplot2','pheatmap','hash','logging','data.table','MuMIn','glmmTMB','MASS','cplm','pscl'), repos='http://cran.r-project.org')"
- 安装MaAsLin2包(使用R方程时用):
$ R CMD INSTALL maaslin2
R实现
安装最新版本R包
if(!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("Maaslin2")
或
install.packages("devtools")
library("devtools")
install_github("biobakery/Maaslin2")
准备数据
MaAsLin2 需要两个输入文件
- Data文件
- 制表符分割
- 样本为行,要素为列
- 或格式转换
- 文件中的feature包括taxonomy或gene
- Metadata文件
- 制表符分割
- 样本为行,要素为列
- 或格式转换
- metadata包括性别或年龄
数据文件可以包含未包含在元数据文件中的样本(以及相反的情况)。 对于这两种情况,两个文件中都未包含的那些样本将从分析中删除。 同样,在两个文件中,样本的顺序不必相同。
输出文件
MaAsLin2 有两种输出文件: 数据及图片
- 输出文件
all_results.tsv
- 返回的data
- q值由小到大排列的结果
- 第一列为metadata和feature的名称
- 接下来两列为模型中的值和系数
- 接下来一列为模型的标准误
N
列的为数据点的数目N.not.zero为非0数据的数目
- pvalue为第二-最后一列
- qvalue为使用矫正方法之后的p值
significant_results.tsv:仅包括P<界值的关联
residuals.rds:每个feature的残差
fitted.rds
:每个feature的拟合值ranef.rds
:该文件包含一个数据集,其中包含每个功能的提取随机效果(如果指定了随机效果)。maaslin2.log:日志
- 输出图片
heatmap.pdf:有意义关联的热图
[a-z/0-9]+.pdf
- 将为每个重要关联生成一个图。
- 散点图用于连续的元数据。
- 箱形图用于分类数据。
- 绘制的数据点是经过归一化,过滤和变换后的。
例子
文件来源 https://ibdmdb.org/ .
HMP2_taxonomy.tsv
:是制表符分隔的文件,种类是列,样本是行。 它是分类文件的子集,因此仅包括所有样本的物种丰度。
HMP2_metadata.tsv
: 是制表符分隔的文件,其中样本作为行,元数据作为列。 它是元数据文件的子集,因此它仅包含一些字段。
命令行
$ Maaslin2.R --transform=AST --fixed_effects="diagnosis,dysbiosisnonIBD,dysbiosisUC,dysbiosisCD,antibiotics,age" --random_effects="site,subject" --normalization=NONE --standardize=FALSE inst/extdata/HMP2_taxonomy.tsv inst/extdata/HMP2_metadata.tsv demo_output
- 确保提供MaAsLin2可执行文件的完整路径(例./R/Maaslin2.R)
- 例子中:
HMP2_taxonomy.tsv
data路径HMP2_metadata.tsv
metadata路径demo_output
输出文件夹
R中
library(Maaslin2)
input_data <- system.file(
'extdata','HMP2_taxonomy.tsv', package="Maaslin2")
input_metadata <-system.file(
'extdata','HMP2_metadata.tsv', package="Maaslin2")
fit_data <- Maaslin2(
input_data, input_metadata, 'demo_output', transform = "AST",
fixed_effects = c('diagnosis', 'dysbiosisnonIBD','dysbiosisUC','dysbiosisCD', 'antibiotics', 'age'),
random_effects = c('site', 'subject'),
normalization = 'NONE',
standardize = FALSE)
输出文件: