![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
菌群分析
文章平均质量分 86
一个人旅行*-*
不想当医生的程序员不是个好厨子
展开
-
MDL4Microbiome:通过多模态深度学习提升宏基因组数据疾病预测的准确性
来源国家基因库大数据平台在过去的几十年里,先进的宏基因组测序技术使得对人类微生物组的研究能够发现细菌组成与功能、疾病之间的病理关系。然而相关分析工具在诊断和治疗方面的应用仍需提高其准确性。近日,《Scientific reports》发表了一个新工具:MDL4Microbiome,其通过使用宏基因组序列的各种特征和多模态深度学习模型,在预测疾病状态方面表现出很高的准确性。MDL4Microbiome是什么?MDL4Microbiome是一个深度学习模型,利用从微生物组测序...转载 2022-03-02 10:24:34 · 536 阅读 · 0 评论 -
ISME:微生物网络构建与分析面临的挑战
摘要微生物网络作为当下一种流行的数据分析方法被广泛应用于微生物群落研究。虽然目前已有许多并不断有新的微生物网络构建方法被开发出来,但与数据预处理、混杂因素、网络评估和解释相关的多个问题仍未得到足够的重视。因此,本文的目的是呼吁研究者们关注微生物网络构建和分析中这些悬而未决问题。编译:鞠志成英文标题:Open challenges for microbial network construction and analysis中文标题:微生物网络构建与分析面临的挑战期刊:ISME转载 2021-11-12 20:20:28 · 1604 阅读 · 0 评论 -
微生物网络构建原理: SparCC, MENA, LSA, CoNet
主要参考这个网站,是由CoNet的作者写的(点阅读原文直达)。http://psbweb05.psb.ugent.be/conet/microbialnetworks/index.phpMicrobial association network construction tutorial宏基因组公众号之前对该网站进行了翻译整理:微生物相关网络构建教程:MENA, LSA,SparCC和CoNet但是后来网站又增加了新的方法SPIEC-EASI。另外他们还做了一转载 2021-09-01 16:49:58 · 5685 阅读 · 1 评论 -
微生物相关网络构建教程:MENA, LSA, SparCC和CoNet
简介Introduction本文提供MENA, LSA, SparCC和 CoNet四种网络构建方法,作者为CoNet作者。由宏基因组公众号翻译整理,并补充及更新部分程序参数。说明:计算过程在Ubuntu16.04系统的服务器,没服务器的伙伴可以使用QIIME提供的虚拟机;网络可视化在Win10上安装Cytoscape展示及导出。必须软件Prerequisites 最新版Windows版 Cytoscape下载并安装 http://www.cytoscape.org/ 在Cyto.转载 2021-09-01 16:33:18 · 3830 阅读 · 1 评论 -
菌群数据预处理-microbiome包
Processing phyloseq objectsInstructions to manipulate microbiome data sets using tools from thephyloseq packageand some extensions from themicrobiome package, including subsetting, aggregating and filtering.使用phyloseq软件包中的工具以及microbiome软件包中的某些扩展来操作微...翻译 2021-08-21 09:05:59 · 2797 阅读 · 2 评论 -
SIAMCAT的R实现
SIAMCAT: Statistical Inference of Associations between Microbial Communities And host phenoTypesKonrad Zych, Jakob Wirbel, and Georg Zeller1*1EMBL Heidelberg*georg.zeller@embl.deDate last modified: 2020-04-04Contents1About This Vignette 2Int..翻译 2021-08-20 21:03:02 · 983 阅读 · 1 评论 -
R包animalcules-一键式交互探索微生物组数据
if (!requireNamespace("animalcules", quietly=TRUE)) BiocManager::install("compbiomed/animalcules")library(animalcules)library(SummarizedExperiment)library(MultiAssayExperiment)data_dir = system.file("extdata/MAE.rds", package = "animalcules")MAE =.转载 2021-08-20 11:15:38 · 697 阅读 · 0 评论 -
Mantel test的R实现
如何在R中执行Mantel测试?Mantel测试测量通常包含距离测量的两个矩阵之间的相关性。 Mantel测试是一种测试空间自相关的方法。 在ade4库使用功能,我们可以在河进行Mantel检测要下载和加载这个库,输入install.packages(“ade4”),然后library(ade4)。 在其他R库中还有其他Mantel测试功能,我们对这个库的选择不应该被视为任何方式的认可。让我们看一个例子。 我们的数据集中, 臭氧 ,含有在聚合一个月以上洛杉矶地区32的位置臭氧测量。 该数据集包括的站号转载 2021-08-02 16:37:25 · 5829 阅读 · 0 评论 -
浅谈微生物组常用了四种统计检验方法
写在前面我们做无论是做什么组学,面对的都是高维度数据,这些数据往往具有具有共同的特征,那就是较多的变量,也就是高维度信息,通常这些数据的分析牵扯到的方法多数都是多元统计分析方法,降维,聚类,机器学习等等,都是将变量减少或者转化,希望发现一些规律。这里我们以微生物组为例子,谈一谈高维数据常用的统计检验方法统计量基于高维度数据的统计检验往往是按照距离矩阵来做的,也就是将多个变量根据不同的距离算法求取距离矩阵,然后根据距离矩阵进行相应的检验。典型的检验方法有四种:adonis,MRPP,anosi转载 2021-07-16 20:42:57 · 2265 阅读 · 0 评论 -
二代测序原理及其流程
第二代测序(Next-generation sequencing,NGS)又称为高通量测序,其开创性的引入了可逆终止末端,从而实现边合成边测序,在DNA复制过程中通过捕捉新添加的碱基所携带的特殊标记来确定DNA序列。二代测序有两个重要特点:1.高通量,二代测序能一次并行对几十、几百万条DNA分子进行测序;2.读长短,测序过程随着读长增长,基因簇复制的协同性降低,会导致测序质量下降,二代测序的读长不超过500bp。因此基因组、宏基因组需要被打断成小片段再测序,测序完毕后再拼接。下面以Illumina测序法转载 2021-06-19 14:42:23 · 22090 阅读 · 1 评论 -
microbiomeViz:绘制lefse结果中Cladogram
平日经常会分析shotgun宏基因组的数据,我们的pipeline使用MetaPhlAn,Kraken等profiler。这种数据经常会产生一个表格,如下download.file("https://bitbucket.org/biobakery/biobakery/raw/tip/demos/biobakery_demos/data/metaphlan2/output/SRS014459-Stool_profile.txt", 'SRS014459-Stool_profile.txt')knitr转载 2021-05-27 14:29:33 · 2243 阅读 · 1 评论 -
MetaLonDA
MetaLonDA(META基因组纵向差分丰度方法)是一种在纵向研究中识别微生物特征的重要时间间隔的方法。 MetaLonDA能够处理与人类研究相关的不一致和常见挑战,例如可变的样本采集时间和受试者纵向研究中时间点的数量不均匀。 该方法采用负二项式分布与半参数SS-ANOVA相结合来对读取计数进行建模。 然后,它使用置换测试程序基于单位时间间隔执行重要性测试。https://github.com/aametwally/MetaLonDA...翻译 2021-01-09 11:02:51 · 296 阅读 · 5 评论 -
MaAsLin2及R实现
MaAsLin2是下一代MaAsLin(与线性模型的微生物组多变量关联),用于有效确定临床数据和微生物组学特征之间的多变量关联。 MaAsLin2依靠通用线性模型来适应大多数现代流行病学研究设计,包括横断面研究和纵向研究,以及各种过滤,归一化和变换方法。该统计方法可以使用命令行或者R实现。目录命令行实现R实现准备数据输出文件例子all_results.tsvsignificant_results.tsv命令行实现下载源:MaAsLin2.master.zip 解.原创 2020-12-28 20:38:57 · 6962 阅读 · 1 评论 -
菌群16S测序引物的选择
16S基因全长1500bp左右,基因序列包括间隔分布的保守区和可变区,对于细菌一般包括9个保守区(C1-C9)和9个可变区(V1-V9)。不同种类的细菌有相同的保守区序列和不同的可变区序列,因此可以根据保守区序列设计引物来扩增环境样品中所有细菌16SrRNA基因,而根据可变区序列来区分不同种类的细菌。测序引物对序列如图一般而言,我们环境微生物组学常用的,也是认可度比较高的测序区域是V3-V4,V4-V5,或者单测V4区。在Illumina时代,由于平台测序长度的限制,V4单区测序(515F/原创 2020-12-23 21:02:58 · 11998 阅读 · 0 评论 -
Dirichlet Multinomial Mixtures (DMM)的R实现
Dirichlet Multinomial MixturesCommunity typing with Dirichlet Multinomial MixturesDirichlet Multinomial Mixtures (DMM)是一种用于对微生物群落分析数据进行群落分型(或聚类)的概率方法。 这是一个无限的混合模型,这意味着该方法可以推断出最佳数量的群落类型。 请注意,群落类型的数量可能会随数据大小而增长。library(microbiome)library(DirichletMu.翻译 2020-11-30 21:10:02 · 3947 阅读 · 2 评论 -
ADONIS、ANOSIM、Mangel_test、MRPP
常规的T检验、方差分析等,可以用于比较组间变量的差异水平。由于这些常规方法都是对于1-2个特定变量而言的,那么如果我们想比较所有变量整体的差异,或者说各组对象间在变量组成上是否存在较大的不同,应该怎样做呢?多变量情形下,可能会首先想到使用PCA等排序分析方法去降维,然后在低维空间的排序图中观测对象的离散程度,组间区分是否明显等。然后我们首先看下面这个PCA。排序图中,显示setosa与virginica或versicolor之间区分明显,virginica和versicolor之间存在一定程度的重叠。这种组转载 2020-11-30 16:02:32 · 11096 阅读 · 0 评论 -
Netshift在菌群分析中的应用
细节众所周知,人体中共生微生物内部相互联系的综合作用在决定我们的健康状况方面起着重要作用。健康状态和疾病状态之间的分类生物多样性差异通常用于鉴定微生物标记。但是,为了进行基于微生物群落的推断,重要的是不仅要考虑微生物的丰度,而且还要量化在微生物间关联中观察到的变化。我们引入一种称为“ NetShift”的方法,以可视化健康状态和患病状态之间的微生物关联网络中的社区改组,并识别在状态之间观察到的“驱动程序”节点。借助“ NetShift”网络服务器,可以轻松直观地分析“病例”和“对照”微生物关联网络,要求翻译 2020-11-30 11:16:14 · 1836 阅读 · 0 评论 -
冲击图(alluvial diagram)及R实现
冲击图(alluvial diagram)是流程图(flow diagram)的一种,最初开发用于代表网络结构的时间变化。实例1. neuroscience coalesced from other related disciplines to form its own field. From PLoS ONE 5(1): e8694 (2010)实例2. Sciences封面哈扎人肠道菌群 图1中的C/D就使用了3个冲击图。详见3分和30分文章差距在哪里?ggalluvial是一个基于转载 2020-10-15 22:26:48 · 11527 阅读 · 1 评论 -
16S的细菌群落功能预测工具PICRUSt2学习
2018年推出了全新版本的PICRUSt,即PICRUSt2(https://github.com/picrust/picrust2)PICRUSt2 (Phylogenetic Investigation of Communities by Reconstruction of Unobserved States)是一款基于标记基因序列来预测功能丰度的软件。“功能”通常指的是基因家族,如KEGG同源基因和酶分类号,但可以预测任何一个任意的特性。同样,预测通常基于16S rRNA基因测序数据,但也可以转载 2020-09-16 14:20:59 · 13849 阅读 · 3 评论 -
用R绘制弦图
方法一:R绘制# 两个包自己用Rstudio直接安装就好library(statnet)library(circlize)数据导入# setwd(...)# 自己设定工作环境,随自己喜好# Rmd无需设置工作目录,默认为文件所有目录data<-read.csv("SC.csv",header=T,row=1) my.data<-as.matrix(data) # 矩阵化# 手动设置行列名(可选)rownames(my.data) <-c("CCK", "CN.转载 2020-09-03 21:09:03 · 15449 阅读 · 4 评论 -
GraPhlAn绘制的超高颜值物种树Cladogram
GraphLan绘制教程我们经常在文章中看到这样的图Yang Bai, Daniel B. Müller, Girish Srinivas, Ruben Garrido-Oter, Eva Potthoff, Matthias Rott, Nina Dombrowski, Philipp C. Münch, Stijn Spaepen, Mitja Remus-Emsermann, Bruno Hüttel, Alice C. McHardy, Julia A. Vorholt & P转载 2020-09-02 10:44:18 · 2031 阅读 · 0 评论 -
itol绘制高颜值的进化树
iTOL简介大家在看高分文章时,总会惊叹于,为什么人家能做出那么好看而且高大上的系统发育树,而且好看的图也能直接提升文章的档次,冲击高分文章。人家的树不管是从配色还是各种注释信息都让人无可挑剔,而你每次花了半个月时间做的进化树不是被老板嫌弃配色丑,就是太单调,没有各种辅助的注释信息。然后你默默捧起别人的文章学习时发现他们绝大部分都是用iTOL这个在线工具来进行的系统发育树的美化的。之前看有好几个公众号的几篇文章推送了教大家怎么使用iTOL这个网站:http://itol.embl.de/例如:转载 2020-09-01 15:06:59 · 11823 阅读 · 3 评论 -
qiime2R包的安装及使用
qiime2R包讲qiime2中的最终特征表文件(table.qza),分类文件(taxonomy.qza)及进化树文件直接导入R软件中,进行图形的绘制及统计分析。功能如下:read_qza()- Function for reading artifacts (.qza). qza_to_phyloseq()- Imports multiple artifacts to produce a phyloseq object. read_q2metadata()- Reads qiime2 ...翻译 2020-09-01 14:48:54 · 5284 阅读 · 3 评论 -
ggtree绘制进化树
setwd("C:\\Users\\Administrator\\Desktop\\tree")library("ggtree")library("ggplot2")tree <- read.tree("species.tree")ggtree(tree,layout = "circular")ggtree(tree, layout="fan", ladderize = FALSE, branch.length = "none")+ geom_tiplab2(size=..转载 2020-08-31 17:10:00 · 5101 阅读 · 2 评论 -
使用MicrobiomeAnalyst统计和功能分析微生物组数据
文章目录使用MicrobiomeAnalyst进行微生物组数据的全面统计、功能和元分析 摘要 背景Introduction 分析流程和界面设计 图1 MicrobiomeAnalyst工作流程概述。 图2 全面的数据分析和报告生成 与其他网页工具比较 表1 比较MicrobiomeAnalyst和其他三种网页工具对微生物组数据分析的流程 局限性 实验设计 综合分析16S rRNA丰度数据 基因丰度数据的功能分析和网络可视化 与公共数据集的转载 2020-08-21 20:03:34 · 4202 阅读 · 0 评论 -
R语言重现STAMP结果图
来源:公众号红皇后学术我们通常使用的STAMP的结果主要就是两组数据之间差异性检验的被称作Extended error bar(扩展柱状图)的图像。由于STAMP的结果图相对固定,可修改的图像参数有限,经常会遇到一些问题,比如靶标物种或功能基因名字过程就会导致显示不全,在与其它图像拼接成一副图的时候也会出现字号太小导致看不清楚的问题。数据准备这里我将使用一套同一环境位点水体和沉积物16S扩增子测序的PICRUSt功能预测结果作为示例。选择的是KEGG L2水平的功能预测的相对丰度数据。原创 2020-07-23 19:46:03 · 3080 阅读 · 9 评论 -
WGCNA分析及实现
原文链接WGCNA基本概念 基本分析流程 WGCNA包实战 输入数据和参数选择 安装WGCNA WGCNA实战 数据读入 软阈值筛选 经验power (无满足条件的power时选用) 网络构建 层级聚类树展示各个模块 绘制模块之间相关性图 可视化基因网络 (TOM plot) 导出网络用于Cytoscape 关联表型数据 分步法展示每一步都做了什么 Reference:1.WGCNA基本概念加权基因共表达网络分析 (转载 2020-07-20 19:49:07 · 4789 阅读 · 3 评论 -
系统发育树
转自公众号:微生物生态系统发育树(Phylogenetic tree)又称为系统进化树,是用一种类似树状分支的图形来概括各物种之间的亲缘关系,可用来描述物种之间的进化关系。1.系统发育树构建步骤2.多序列比对系统发育树构建的第一步是进行多序列比对,常用的软件包括MEGA, cluster X,Muscle,phylip等。(都很常用,就看哪个顺手)MEGA是最常用的比对建树软件,优点是可视化图形界面,简单方便;缺点是比对速度慢,输出格式单一。Cluste...转载 2020-06-29 00:27:38 · 28392 阅读 · 0 评论 -
提取OTU表格中分类学名称
在分类学注释结果中,物种的分类学名称包含所有的分类学水平,在绘制相对丰度图或绘制热图时,需要对分类学名称进行处理,只保留我们需要的分类学水平。这里以L4水平为例,用到的函数为gsub函数(http://www.endmemo.com/r/gsub.php)gsub(pattern, replacement, x, ignore.case = FALSE, perl = FALSE,fixed = FALSE, useBytes = FALSE)•pattern: string to b.原创 2020-06-15 14:44:06 · 2120 阅读 · 0 评论 -
微生物研究十问十答
转自公众号《宏基因组》Q1:基于高通量测序的微生物多样性检测技术优势以及原理是什么?A:常规的微生物研究方法包括基因克隆文库、变性梯度凝胶电泳DGGE等,但这些方法的通病是信息量太小,且自然界中99%的微生物在实验室都没有办法纯化培养,不能充分反映复杂的环境微生物多样性和分布,且程序繁琐,效率低下,也无法检测到稀有菌群的种类,因此其重复性和分辨率都不甚理想。 二代高通量测序无需构建质粒克隆文库,这避免了文库构建过程中利用宿主菌对样品进行克隆而引起的系统偏差,可以直接对环境样品中的基因组片段进...转载 2020-05-29 20:52:12 · 4017 阅读 · 0 评论 -
Bray-curtis,unifrac,weighted unifrac,jaccard计算方法比较
原文链接:https://www.jianshu.com/p/066d90b556ad1、微生物β多样性利用宏基因组、16s rRNA测序等高通量测序技术分析微生物群体结构的时候,常见到有α和β多样性两个指标。α多样性主要反映样本内多样性,而β多样性指的是样本间多样性(Between-sample diversity),它的本质是一个量化的数值,其值的大小反映每个组内各个样本间的群落物种组...转载 2020-05-08 09:43:40 · 25693 阅读 · 0 评论 -
DESeq2筛选差异OTU及绘制火山图
1.DESeq包安装install.packages("BiocManager")library(BiocManager)BiocManager::install("DESeq2")library(DESeq2)2.数据准备共需要两份数据文件a.OTU丰度表格,otutab.txt;(每一列为一个样本,每一行为一种OTU,交叉区域为每种OTU在各样本中的丰度,DESeq2计...原创 2020-01-24 03:17:01 · 10869 阅读 · 12 评论 -
升级qiime2
# 安装miniconda软件管理器:用于安装QIIME2及依赖关系 https://conda.io/miniconda.htmlwget https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.shchmod +x Miniconda3-latest-Linux-x86_64.sh./Miniconda3-l...转载 2019-06-09 16:48:33 · 1141 阅读 · 0 评论 -
qiime 2分析菌群数据代码
1. installation有Linux服务器的伙伴推荐使用Conda安装,想在windows笔记本上体验的朋友可使用Virtualbox虚拟机安装并学习#install condaconda update conda #升级conda程序conda install wget #安装下载工具#install QIIME2 with condawget https://da...原创 2019-06-08 14:12:30 · 4867 阅读 · 0 评论 -
测序数据分析之OTU
1. OTU(Operational Taxonomic Units)操作分类单元:是在是在系统发生学研究或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元(品系,种,属,分组等)设置的同一标志。在生物信息分析中,一般来说,测序得到的每一条序列来自一个菌。要了解一个样品测序结果中的菌种、菌属等数目信息,就需要对序列进行归类操作(cluster)。通过归类操作,将序列按照彼此的相似性分归为许...转载 2018-12-10 12:44:47 · 31849 阅读 · 2 评论