fastp原理及简单介绍

简单介绍

FASTQ需要质控和预处理,保证下游分析输入数据都是干净可靠的。

FASTQC(质控)+cutadapt(去除接头)+Trimmomatic(剪裁)+脚本过滤

SE:in.fq->out.fq+fastp.html+fastp.josn

工具及设计

总体设计

Fastp是为多线程并行处理而设计的。从FASTQ文件中读取的内容将以N (1000)的大小打包。每个包将被池中的一个线程消耗,每个线程都有一个单独的环境来存储它处理的读取的统计值。在处理完所有操作后,这些值将被合并,报告器将生成HTML和JSON格式的报告。Fastp报告预过滤和后过滤数据的统计值,以便于比较过滤完成后数据质量的变化。fastp支持SE (single-end)和PE (paired-end)数据。

Adapter trimming

对单端和双端采用不同的算法
单端:通过组装高频读尾检测适配器序列(adapter sequences)。
双端:通过查找每对的重叠部分来检测适配器序列。

适配器序列检测算法基于两种假设(适用于下一代测序仪):
数据中只有一个适配器
适配器序列只存在于读尾中

我们计算前M(M=1M)次读取的k-mer(k=10),在一个k-mer中出现频率高(>0.0001)的认为是适配器种子(adapter seeds),种子按频率排序。

通过算法&#

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值