一款去接头并且也能去低质量碱基的软件
首先来了解一下三个概念:
1、adapter是一段短的序列已知的核酸链,用于链接序列未知的目标测序片段。
2、barcode,也称为index,是一段很短的寡居核酸链,用于在多个样品混合测序时,标记不同的样品。
3、insert是用于测序的目标片段,因为是包括在两个adapter之间,所以被称为“插入”片段。
一个常见测序片段类似于adapter--barcode--insert--adapter
参数:
-a 3'端的adapter序列
-g 5'端的adapter序列
--info-file 将adapter信息和含有adapter的对应reads写入该文件
-A 双端测序中第二个序列的adapter序列
-p 双端测序中第二个序列文件的输出文件
-j CORES, --cores=CORES 使用CPU核心的个数,设为0时自动调用,默认为1个
-m LEN[:LEN2], --minimum-length=LEN[:LEN2] 去除接头后如果read长度小于这个值就不要了,默认为0,一般设为20
-M LEN[:LEN2], --maximum-length=LEN[:LEN2] 去除接头后如果read长度大于这个值就不要了,默认不限制
-O --overlap adapt和序列比对最少匹配的数量,高于此值就认为是adapt并剪切,默认为3
-o 输出文件
--pair-filter 采用双末端模式来去除接头,保持两端数据匹配
--discard-trimmed 去除掉有检测到接头的序列(默认cutadapt只是截掉接头序列以及接头序列以后的序列)
--untrimmed-output 将没有接头的序列输出到目标文件中(但是必须要跟-o 一起用)
--untrimmed-paired-output 将没有接头的paired序列输出到目标文件中(也要跟-p 一起用)
--pair-filter=(any|both) 这个参数很好用,对于双端测序而言,read1和read2都有可能检测到接头。如果选择any,则只要两个中其中一个检测到接头,read1和read2均舍弃;如果选择both,则必须两个都检测到接头,read1和read2才舍弃
-q [5'CUTOFF,]3'CUTOFF, --quality-cutoff=[5'CUTOFF,]3'CUTOFF 在去接头前先将低于此数值的bases去除。如果只设置一个数值则从3'末端去除,如果用逗号分割两个数值则先去5'末端后去3'末端。一般设为30。
--quality-base=N 每个碱基的质量值,默认为33
--max-n=COUNT 无法识别的base用N表示,该参数设置抛弃COUNT个N的reads。COUNT如果设置为整数,就是按N的绝对个数来处理;如果设置为小数(0到1之间),就按每条reads中N的百分比来处理
-u 剪切固定长度碱基,-u为正,剪切5'端碱基;-u为负,剪切3'端碱基
-n, --times 剪切的次数,默认为1
-f 输入文件格式,一般不用设置,软件可自动识别
--no-trim 不剪切reads