MultiQC整合多个质控结果

一、 MultiQC介绍

​FastQC、Qualimap 和RSeQC等不少生信工具都可以给样品生成一个评估结果,但是几乎所有的质控工具都是针对单个样本生成一个报告

MultiQC,基于Python的小工具能把多个质控结果整合,其强大的功能主要体现在以下三个方面:

1)能将测序数据的多个QC结果整合成一个HTLM网页交互式报告,同时也能导出pdf文件;
2)支持多种分析类型的质控结果查看,如:RNAseq、Whole-Genome Seq、Bisulfite Seq、Hi-C和MultiQC_NGI;

二、安装MultiQC

## 安装conda
## 安装python2环境
##conda create --name python2 python=2.7 -c https://mirrors.ustc.edu.cn/anaconda/cloud/bioconda/ -y

conda activate python2	##激活python2环境(conda)

##conda install multiqc
conda install -c bioconda -c conda-forge multiqc

multiqc .	##运行测试

在这里插入图片描述

在这里插入图片描述

三、MultiQC使用

1、将需要测评的数据用FastQC测评(详细操作见 “Fastqc安装运行(jdk安装)”)
2、以下为三份测评结果:

prefetch SRR15971001
prefetch SRR15971005
prefetch SRR15971013
##下载三份测评SRA数据
fastq-dump --gzip --split-files  SRR15971001
fastq-dump --gzip --split-files  SRR15971005
fastq-dump --gzip --split-files  SRR15971013
##--gzip参数是为了生成压缩为gz格式的fastq文件,以节省磁盘空间
fastqc SRR15971001_1.fastq.gz
fastqc SRR15971001_2.fastq.gz
fastqc SRR15971005_1.fastq.gz
fastqc SRR15971005_2.fastq.gz
fastqc SRR15971013_1.fastq.gz
fastqc SRR15971013_2.fastq.gz
##双端测序,所以生成的是正向和反向文件,所以都需要测评
multiqc .

在这里插入图片描述
**中途退出的话,要重新 conda activate python2 ##激活python2环境(conda)
**再者需要将以上解压分析后的文件转移到一个文件夹下进行评估

在这里插入图片描述
html报告可以直接网页打开就可以查看
multiqc_data文件夹,包含一些数据基本的统计信息和日志文档
在这里插入图片描述

四、结果分析:

  1. General Statistics
    在这里插入图片描述

所有样本数据基本情况统计

%Dups——重复reads的比例,该六个样本重复reads的比例都很高,说明有用的reads很少
%GC——GC含量占总碱基的比例,比例越小越好(主要看这个GC含量)测序中的GC偏好指的是基因组上GC含量在50%左右的区域更容易被测到,产生的reads更多,这些区域的覆盖度更高,在高GC或者低GC区域,不容易被测到,产生较少的reads,这些区域的覆盖度更少。
M Seqs——总测序量(单位:millions)

  1. Sequence Counts
    在这里插入图片描述
    序列计数
    这里可以看到重复reads,六个重复reads比例都偏高,说明这些样本的序列中有用的reads数目较少

  2. Sequence Quality Histograms
    在这里插入图片描述

每个read各位置碱基的平均测序质量
绿色区间——质量很好
橙色区间——质量合理
红色区间——质量不好
此处可以看出6个样本均落在绿色区间,测序质量良好

  1. Per Sequence Quality Scores
    在这里插入图片描述

具有平均质量分数的reads的数量

绿色区间——质量很好
橙色区间——质量合理
红色区间——质量不好
可以看出这六个序列的整体测序质量还是很不错的,所有的都在绿色区域

  1. Per Base Sequence Content
    在这里插入图片描述

每个read各位置碱基ATCG的比例
结果显示六个序列都报错,说明每个位置每种碱基出现的概率差别很大,可能有过表达序列的污染

  1. Per Sequence GC Content
    在这里插入图片描述
    reads的平均GC含量
    正常的样本的GC含量曲线会趋近于正态分布曲线,曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差
    这里结果显示部分序列被报错,从形状上来看曲线和正态曲线相差甚远,可能是由于文库的污染或是部分reads构成的子集有偏差造成的

  2. Per Base N Content
    在这里插入图片描述

每条reads各位置N碱基含量比例
当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”,统计N的比率,正常情况下,N值非常小

  1. Sequence Length Distribution
    在这里插入图片描述

序列长度分布
对于这六个序列,每次测序仪测出来的长度主要都在75bp

  1. Sequence Duplication Levels
    在这里插入图片描述

每个序列的相对重复水平

  1. Overrepresented sequences
    在这里插入图片描述

文库中过表达序列的比例

  1. Adapter Content
    在这里插入图片描述

接头含量


  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 针对Amos多组分析的结果解析,我会使用简洁明了的语言进行说明。 首先,Amos多组分析是一种结构方程建模的方法,用于研究多个样本之间的差异和相似性。通过该分析,我们可以得出以下几个重要的结果解析。 首先,我们可以通过Amos多组分析来比较不同样本的模型拟合指标。这些指标包括模型拟合度,如卡方值、拟合度指数(CFI)和均方根误差逼近值(RMSEA)。通过比较这些指标的数值,我们可以评估模型在不同样本中是否具有良好的拟合度。 其次,Amos多组分析还可以帮助我们比较不同样本之间的结构模型参数的差异。这些参数包括路径系数、因子载荷和测量误差。通过比较不同样本的这些参数,我们可以了解不同样本在模型中的贡献和差异。 另外,Amos多组分析还可以帮助我们研究不同样本之间的隐变量之间的关系。通过分析不同样本的因子关系,我们可以了解不同样本的共同因素以及它们之间的关系模式。 最后,Amos多组分析还可以帮助我们进行模型的泛化或者修正。通过比较不同样本的模型参数,我们可以识别出模型中的不一致性,并进行修正以提高模型的适应性。 总之,Amos多组分析提供了一种强大的工具,可以帮助我们比较多个样本之间的结构模型差异,了解不同样本的相似性和差异性。通过这些分析结果解析,我们可以深入理解研究问题并提出相应的解决方案。 ### 回答2: amos多组分析是一种常用的生物信息学分析方法,用于研究多组试验的比较。根据不同实验组的样本特征和表达数据,amos可以评估基因或其它分子的表达差异,从而揭示基因功能和调控机制。 在amos多组分析中,数据预处理是首要步骤。首先,对原始数据进行质控,去除低质量的数据和异常值。然后,进行数据归一化,使不同实验组之间的表达数据具有可比性。 接下来,amos会应用统计学方法来评估基因表达的差异。一种常见的方法是t检验,用于比较两组表达数据的均值差异。如果有多个实验组,则可以使用方差分析(ANOVA)来确定是否存在显著差异。此外,amos还经常运用聚类分析、主成分分析等技术来发现实验组之间的关联和样本分类。 除了差异分析外,amos还可以进行功能注释和通路分析。基因功能注释可根据基因的GO注释、KEGG注释等信息,预测其功能和参与的生物过程。通路分析可发现基因之间的相互作用和调控关系,帮助研究人员深入了解基因网络。 最后,amos会生成各种图形和统计表格,以直观展示分析结果。通过解析amos多组分析的结果,可以获得与实验组之间差异表达相关的关键基因或通路,有助于研究人员在基因功能和疾病机制等方面的深入探索。 ### 回答3: Amos多组分析是一种统计分析方法,常用于探索多个变量之间的关系以及变量对于模型拟合度的影响。通过对Amos多组分析结果的解析,我们可以对研究中的变量相关性、模型拟合情况等进行深入理解。 首先,Amos多组分析结果可以告诉我们变量之间的相关性。通过相关系数等统计指标,我们可以确定哪些变量之间存在强相关关系,从而为后续研究提供参考。例如,某研究表明A变量与B变量之间的相关系数为0.8,表明这两个变量之间存在着很强的正相关性。 其次,Amos多组分析结果还能够评估模型的拟合程度。Amos提供了多个拟合指标,如χ2拟合度检验、指标信度等,用于评估研究模型与实际数据之间的拟合程度。通过这些指标,我们可以得知模型是否能够较好地拟合数据,以及是否需要进行进一步的改进。 除此之外,Amos多组分析结果还可以提供变量对模型拟合度的影响程度。例如,在结构方程模型中,我们可以通过路径系数来判断变量之间的直接和间接影响。通过解析Amos多组分析结果,我们可以确定哪些变量对模型拟合度的影响最为显著,从而为研究提供进一步的改进和优化方向。 综上所述,Amos多组分析结果的解析可以帮助我们理解变量之间的相关性、评估模型的拟合程度,并确定变量对模型拟合度的影响程度。这些分析结果可以为研究者提供有效的参考和指导,以便更好地理解研究问题并进行后续的研究工作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值