cutadapt 处理fastq文件

切除 3’接头 (包括接头后面的序列

cutadapt -a GCTCTGT  input.fastq  -o output.fastq
# -a 3’接头
# -o 输出,o是output的意思
# -j 选择几个核

# 也可以处理.gz压缩文件
cutadapt -a GCTCTGT  input.fq.gz  -o output.fq.gz

# 去除poly-A尾,如去除100个及以上个A
cutadapt -a "A{100}" -o output.fastq input.fastq

# -e E, --error-rate  adapter错误率,默认为0.1

去除5’端的接头 (包括接头后面的序列

Illumina测序5'端不会测出adapter序列

cutadapt -g CTGGGCTTGGT input.fastq
# -g 5'接头

去除多个接头

cutadapt -a TGAGACACGCA -a AGGCACACAGGG -o output.fastq input.fastq

# The adapter sequences can also be read from a FASTA file.
cutadapt -a file:adapters.fasta -o output.fastq input.fastq

PE 双端测序数据去接头

###通常情况下,Illumina测序过程中5'端不会测出adapter序列,所以-G/-g⼀一般不不会被⽤用到。

cutadapt -a TAGCCAAC -A AAGTCGAAAG -o out.1.fastq -p out.2.fastq  test_read1.fq test_read2.fq
# -a 左边3’端接头
# -A 3’端接头的反向互补序列
# -o 是输出reads.1.fastq去掉接头的结果
# -p 是 --paired-output 的缩写,输出reads.2.fastq去掉接头的结果
# -g 后⾯面也分别是⼀一段核苷酸序列列,代表单端测序中5'端adapter序列列; 
# -G 的⽤用法可以类⽐比-a/-A,是针对reads2的5'端的adapter;

# 去除 Illumina TruSeq adapter

cutadapt -a AGATCGGAAGAGCACACGTCTGAACTCCAGTCA -A AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT -o trimmed.R1.fastq.gz -p trimmed.R2.fastq.gz reads.R1.fastq.gz reads.R2.fastq.gz

去除低质量序列

cutadapt -q 10 -o output.fastq input.fastq  # 3‘端

cutadapt -q 10,10 output.fastq input.fastq
# -q [5'CUTOFF,]3'CUTOFF, --quality-cutoff [5'CUTOFF,]3'CUTOFF
# 质量值,默认为phred33 (+33)。可以设定 phred64 --quality-base=64

  管道连接去除部分reads

tail -n 4 input.fastq | cutadapt -a AACCGGTT - > output.fastq

修剪序列

cutadapt -u 5 -o trimmed.fastq reads.fastq #去除每个read头五个碱基

cutadapt -u -7 -o trimmed.fastq reads.fastq # 去除每个read最后7个碱基

参考

https://cutadapt.readthedocs.io/en/v1.18/index.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值