算法（一）截取reads的算法

最新推荐文章于 2022-03-27 22:24:04 发布

生信了（公众号同名）

最新推荐文章于 2022-03-27 22:24:04 发布

阅读量2k

点赞数 2

分类专栏： # 序列算法文章标签： phred trim mott seqtk fastq

本文链接：https://blog.csdn.net/biocity/article/details/83153010

版权

本文介绍了NGS分析中fastq文件的处理，重点讲解了两种reads截取策略：Fixed-length-trimming和Phred-based-trimming。Phred-based-trimming基于Phred质量值和最大子序列和问题，提供了更精确的reads修剪方法，常用于如bwa和seqtk等工具。通过seqtk的trimfq命令，可以方便地对fastq文件进行Phred-based-trimming。

摘要由CSDN通过智能技术生成

原创：hxj7

关键词：phred; trim; mott;

NGS（二代测序）分析的起点往往是fastq文件。fastq文件其实就是一条条的记录，每个记录包含4行。其中比较重要的是第二行和第四行：第二行是测序得到的碱基序列，第四行是每个碱基相应的测序质量，测序质量越高代表该碱基被测错的概率越低，反之越高。

正因为二代测序是有一定的错误率的，所以我们在进行下游分析之前，常常要对fastq文件中的reads进行修剪（trim），将一条reads中测序质量不高的部分截掉。那么截取reads常用的策略有两种，Fixed-length-trimming以及Phred-based-trimming。我们一一介绍：

Fixed-length-trimming
顾名思义，该方法就是截取固定长度的序列。一般来说，一条reads的头几个碱基和末尾几个碱基的测序质量比较差，所以你可以不加区分地将所有reads的前m个碱基以及后n个碱基去除。这种方法简单直接，但是不够精细。为什么这么说呢？因为每条reads测序质量差的区域长度并不固定，用一个固定的参数去截取reads两端往往会出出现“截取过度”或者“截取不足”的情况。
在这里插入图片描述