生信学习笔记:fastp质控处理生成的report结果解读

前言

测序出来的数据利用fastp一个命令质控全搞定,无论是SE还是PE,同时会生成.json和.html格式的报告,十分直观方便,如何生成报告可查看 Linux下fastp的使用 ,下面记录一下如何理解这份报告。

在这之前先整理几个概念:

raw data 和 fastq文件

测序得到的原始图像数据经base calling 转化为序列数据,我们称之为raw data或raw reads,结果以fastq 文件格式存储,fastq文件为用户得到的最原始文件,里面存储 reads的序列以及reads的测序质量。

在fastq 格式文件中每个read由四行描述:

1.@read ID
2.TGGCGGAGGGATTTGAACCC
3.+
4.bbbbbbbbabbbbbbbbbbb

每个序列共有4行,第1行和第3行是序列名称(有的fq文件为了节省存储空间会省略第三行“+"后面的序列名称);
第2行是序列;
第4行是序列的测序质量,每个字符对应第2行每个碱基,第4行每个字符对应的ASClI值减去64,即为该碱基的测序质量值,比如h对应的ASCIl值为104,那么其对应的碱基质量值是40。(碱基质量值范围为0到40)

下表为Solexa 测序错误率与测序质量值简明对应关系:

测序错误率测序质量值对应字符
5%13M
1%20T
0.1%30^
0.01%40h

公式:-10*log10P

fastp就是对.fa.gz格式的文件进行处理

reads

由于受目前测序水平的限制,基因组测序时需要先将基因组打断成DNA片段,然后再建库测序。reads(读长)指的是测序仪单次测序所得到的碱基序列,也就是一连串的ATCGGGTA之类的,它不是基因组中的组成。不同的测序仪器,reads长度不一样。对整个基因组进行测序,就会产生成百上千万的reads。

在这里插入图片描述

  • 高通量测序时,在芯片上的每个反应,会读出一条序列,是比较短的,叫read,它们是原始数据;
  • 有很多reads通过片段重叠,能够组装成一个更大的片段,称为contig;多个contigs通过片段重叠,组成一个更长的scaffold;
  • 一个contig被组成出来之后,鉴定发现它是编码蛋白质的基因,就叫singleton;
  • 多个contigs组装成scaffold之后,鉴定发现它编码蛋白质的基因,叫unigene.

Q20和Q30

Q20,Q30它们代表的是某一碱基质量值占全部碱基数的百分比,就类似于产品合格率,不同的质量标准会产生不同的合格率,标准越高,质量越好,达标的就越少;合格率越高,那么达标的数据就越多。一般来说,对于二代测序,最好是达到Q20的碱基要在95%以上(最差不低于90%),Q30要求大于85%(最差也不要低于80%)。

一个给定碱基的测序质量分值Q定义为下面的等式:

Q = -10log10(e)

其中,e为预计碱基检出不正确的概率。

Q分值较高表示出错的概率较小。

Q分值较低可能会导致相当大一部分的片段不可用,还可能导致假阳性的变异检出增加,以致得出不准确的结论。

测量分值与碱基检出精度的关系如下:

在这里插入图片描述

N值

N 代表没有测定的碱基。(ATCG都有可能)比如在测序过程中出现gap,那么这一段都用N来代替这些还没有测序、尚不明确的碱基。

Adapters

adapter

接头,为一段已知的短核苷酸序列,用于链接未知的目标测 序片段

index或barcode

几个碱基组成的寡核苷酸链,用于在混合测序时,区分不同样本

可根据fastq序列中的信息获取

@HWI-ST1276:71:C1162ACXX:1:1101:1208:2458 1:N:0:CGATGT

即第一行最末的 CGATGT 即本次测序所使用的index。

insert

待测序的目标序列,位于两个adapter之间

在这里插入图片描述

Duplication

Duplication Rate = 1- Unique reads/Total reads

cluster,是指二代测序所用芯片表面或单个磁珠表面生成的由单个DNA模板生成的数百至数千个DNA分子的集合,犹如单个细菌在LB培养基表面生成单个菌落。

Duplication Reads,是指多个完全相同的DNA片段形成了多个有效cluster,读取这些Cluster所获得reads信息也是完全相同,被称之为Duplication reads

RNAseq与16S去duplication问题

1、RNAseq与16s测序的duplication并不是打断不随机造成的,不能去除duplication
2、去除duplication会造成丰度信息丢失

常见文库的Duplication Rate经验值

WES(全外显子组测序),~10G,dup rate在10%左右;

WGS(全基因组测序),~90G,dup rate在10%左右;

RNA-seq(转录组测序技术),dup rate在40%~50%左右;

WGBS(全基因组甲基化测序),>10G, dup rate > 10%;

多重PCR文库和Panel,差异很大,跟需要测序的区域以及测序量有关,通常情况下只要on target部分数据质量足够好,dup rate不是一个重要的考虑指标。

Insert

插入片段,通俗解释就是两个Adapter接头中间的,被read的片段,即被打断的目标片段

详情可见这篇一篇文章说清楚什么是“插入片段”?,说的很清楚

fastp report

summary

首先是一个总的报告,我处理的是PE
在这里插入图片描述

  • General
    版本号、序列循环数、质控之前的平均长度、质控之后的平均长度、插入片段的峰值
  • Before filtering
    数据质控之前的(反应测序质量):总的reads长度、总碱基长度、Q20合格率、Q30合格率、GC含量
  • After filtering
    质控之后的:内容同上
  • Filtering result
    reads的通过率、低质量的reads、含太多N值的reads

Adapter

即刚刚上面介绍的接头,这里两个文件(两端的reads)列出了从1到几十位的adapters的发生次数,以及其他未列出的接头数
在这里插入图片描述

Insert size estimation

配对末端重叠分析,不同长度的Insert在reads中占的比例,相当于是DNA被打断后的长度分布。当插入片段大小<30或> 270,或包含太多错误,则不能被read读取,比如我这里就有10.074194%的不可读reads)

在这里插入图片描述

Before filtering

质控之前的数据质量、碱基含量以及kmer分析等,可直接在网页上用鼠标拖动放大缩小以及查看具体数据细节,或进行图片保存等操作
  • reads质量
    在不同位置上的碱基质量分布,一般来讲质量应 >30 且波动较小为不错的数据
    在这里插入图片描述

  • 碱基质量
    read各个位置上碱基比例分布,这个是为了分析碱基的分离程度。何为碱基分离?已知AT配对,CG配对,假如测序过程是比较随机的话(随机意味着好),那么在每个位置上A和T比例应该差不多,C和G的比例也应该差不多,如上图所示,两者之间即使有偏差也不应该太大,最好平均在1%以内,如果过高,除非有合理的原因,比如某些特定的捕获测序所致,否则都需要注意是不是测序过程有什么偏差。
    在这里插入图片描述

  • KMER计数
    fastp对5个碱基长度的所有组合的出现次数进行了统计,然后把它放在了一张表格中,表格的每一个元素为深背景白字,背景越深,则表示重复次数越多。这样,一眼望去,就可以发现有哪些异常的信息。鼠标可停留在某一具体组合上看出现次数和平均占比。
    在这里插入图片描述
    剩下一部分After filtering就是质控之后结果,指标和质控之前一致,不赘述了。

以上就是刚接触fastp后做的一个学习笔记,基本上自己目前找到和理解的就这些,正在慢慢学习,欢迎一起讨论。

参考资料:
《全基因组测序WGS数据分析——3.数据质控》学习笔记

fastp:极速全能的FASTQ文件自动质控过滤校正预处理软件

Docker 是一种容器化技术,可以用于生物信息学学习和实践中。生物信息学是研究基因组、蛋白质组、代谢组以及与生物学相关的大量数据的学科。在生物信息学中,研究人员需要使用各种软件工具进行序列分析、结构预测、基因组注释等工作。传统上,这些工具需要手动在本地环境中进行安装和配置,容易出现软件版本依赖和环境冲突等问题。而使用 Docker 可以将这些工具及其依赖项打包到一个容器中,形成一个独立的、可移植的软件环境。这样,研究人员可以在不同的计算机上快速部署、运行这些工具,避免了繁琐的安装和配置过程。 在知乎上,有许多关于 Docker 和生物信息学学习资源可以获取。在知乎上,有许多生物信息学领域的专家和爱好者分享了他们的经验和知识。他们可以回答关于 Docker 在生物信息学中的应用、使用技巧、最佳实践等问题。通过阅读和参与这些问题和讨论,我们可以了解到 Docker 在生物信息学中的作用和优势,学习如何使用 Docker 来进行生物信息学研究,以及如何构建和共享自己的 Docker 容器。 在知乎上,我们可以找到许多有关 Docker 生物信息学的话题和文章。这些文章介绍了如何使用 Docker 来搭建生物信息学工作环境,如何使用 Docker 来运行常见的生物信息学软件工具,以及 Docker 在高通量数据分析中的应用等。通过阅读这些文章,我们可以深入了解 Docker 在生物信息学学习中的应用场景和实践经验,帮助我们更好地应用 Docker 来解决生物信息学研究中的问题。 总之,Docker 在生物信息学学习中具有重要的作用。通过在知乎上查找相关话题和文章,我们可以学习和分享 Docker 在生物信息学中的应用经验和最佳实践,提高生物信息学研究的效率和准确性。
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值