cutadapt v1.18

一款去接头并且也能去低质量碱基的软件

首先来了解一下三个概念:

1、adapter是一段短的序列已知的核酸链,用于链接序列未知的目标测序片段。

2、barcode,也称为index,是一段很短的寡居核酸链,用于在多个样品混合测序时,标记不同的样品。

3、insert是用于测序的目标片段,因为是包括在两个adapter之间,所以被称为“插入”片段。

一个常见测序片段类似于adapter--barcode--insert--adapter

参数:

-a    3'端的adapter序列
-g    5'端的adapter序列

--info-file    将adapter信息和含有adapter的对应reads写入该文件

-A    双端测序中第二个序列的adapter序列
-p    双端测序中第二个序列文件的输出文件

-j CORES, --cores=CORES    使用CPU核心的个数,设为0时自动调用,默认为1个

-m LEN[:LEN2], --minimum-length=LEN[:LEN2]    去除接头后如果read长度小于这个值就不要了,默认为0,一般设为20
-M LEN[:LEN2], --maximum-length=LEN[:LEN2]    去除接头后如果read长度大于这个值就不要了,默认不限制

-O --overlap    adapt和序列比对最少匹配的数量,高于此值就认为是adapt并剪切,默认为3

-o    输出文件

--pair-filter    采用双末端模式来去除接头,保持两端数据匹配

--discard-trimmed    去除掉有检测到接头的序列(默认cutadapt只是截掉接头序列以及接头序列以后的序列)

--untrimmed-output    将没有接头的序列输出到目标文件中(但是必须要跟-o 一起用)

--untrimmed-paired-output    将没有接头的paired序列输出到目标文件中(也要跟-p 一起用)

--pair-filter=(any|both)    这个参数很好用,对于双端测序而言,read1和read2都有可能检测到接头。如果选择any,则只要两个中其中一个检测到接头,read1和read2均舍弃;如果选择both,则必须两个都检测到接头,read1和read2才舍弃

-q [5'CUTOFF,]3'CUTOFF, --quality-cutoff=[5'CUTOFF,]3'CUTOFF    在去接头前先将低于此数值的bases去除。如果只设置一个数值则从3'末端去除,如果用逗号分割两个数值则先去5'末端后去3'末端。一般设为30。

--quality-base=N    每个碱基的质量值,默认为33

--max-n=COUNT    无法识别的base用N表示,该参数设置抛弃COUNT个N的reads。COUNT如果设置为整数,就是按N的绝对个数来处理;如果设置为小数(0到1之间),就按每条reads中N的百分比来处理

-u    剪切固定长度碱基,-u为正,剪切5'端碱基;-u为负,剪切3'端碱基

-n, --times    剪切的次数,默认为1

-f    输入文件格式,一般不用设置,软件可自动识别

--no-trim    不剪切reads

 

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值