简单介绍
FASTQ需要质控和预处理,保证下游分析输入数据都是干净可靠的。
FASTQC(质控)+cutadapt(去除接头)+Trimmomatic(剪裁)+脚本过滤
SE:in.fq->out.fq+fastp.html+fastp.josn
工具及设计
总体设计
Fastp是为多线程并行处理而设计的。从FASTQ文件中读取的内容将以N (1000)的大小打包。每个包将被池中的一个线程消耗,每个线程都有一个单独的环境来存储它处理的读取的统计值。在处理完所有操作后,这些值将被合并,报告器将生成HTML和JSON格式的报告。Fastp报告预过滤和后过滤数据的统计值,以便于比较过滤完成后数据质量的变化。fastp支持SE (single-end)和PE (paired-end)数据。
Adapter trimming
对单端和双端采用不同的算法
单端:通过组装高频读尾检测适配器序列(adapter sequences)。
双端:通过查找每对的重叠部分来检测适配器序列。
适配器序列检测算法基于两种假设(适用于下一代测序仪):
数据中只有一个适配器
适配器序列只存在于读尾中
我们计算前M(M=1M)次读取的k-mer(k=10),在一个k-mer中出现频率高(>0.0001)的认为是适配器种子(adapter seeds),种子按频率排序。
通过算法&#