切除 3’接头 (包括接头后面的序列)
cutadapt -a GCTCTGT input.fastq -o output.fastq
# -a 3’接头
# -o 输出,o是output的意思
# -j 选择几个核
# 也可以处理.gz压缩文件
cutadapt -a GCTCTGT input.fq.gz -o output.fq.gz
# 去除poly-A尾,如去除100个及以上个A
cutadapt -a "A{100}" -o output.fastq input.fastq
# -e E, --error-rate adapter错误率,默认为0.1
去除5’端的接头 (包括接头后面的序列)
Illumina测序5'端不会测出adapter序列
cutadapt -g CTGGGCTTGGT input.fastq
# -g 5'接头
去除多个接头
cutadapt -a TGAGACACGCA -a AGGCACACAGGG -o output.fastq input.fastq
# The adapter sequences can also be read from a FASTA file.
cutadapt -a file:adapters.fasta -o output.fastq input.fastq
PE 双端测序数据去接头
###通常情况下,Illumina测序过程中5'端不会测出adapter序列,所以-G/-g⼀一般不不会被⽤用到。
cutadapt -a TAGCCAAC -A AAGTCGAAAG -o out.1.fastq -p out.2.fastq test_read1.fq test_read2.fq
# -a 左边3’端接头
# -A 3’端接头的反向互补序列
# -o 是输出reads.1.fastq去掉接头的结果
# -p 是 --paired-output 的缩写,输出reads.2.fastq去掉接头的结果
# -g 后⾯面也分别是⼀一段核苷酸序列列,代表单端测序中5'端adapter序列列;
# -G 的⽤用法可以类⽐比-a/-A,是针对reads2的5'端的adapter;
# 去除 Illumina TruSeq adapter
cutadapt -a AGATCGGAAGAGCACACGTCTGAACTCCAGTCA -A AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT -o trimmed.R1.fastq.gz -p trimmed.R2.fastq.gz reads.R1.fastq.gz reads.R2.fastq.gz
去除低质量序列
cutadapt -q 10 -o output.fastq input.fastq # 3‘端
cutadapt -q 10,10 output.fastq input.fastq
# -q [5'CUTOFF,]3'CUTOFF, --quality-cutoff [5'CUTOFF,]3'CUTOFF
# 质量值,默认为phred33 (+33)。可以设定 phred64 --quality-base=64
管道连接去除部分reads
tail -n 4 input.fastq | cutadapt -a AACCGGTT - > output.fastq
修剪序列
cutadapt -u 5 -o trimmed.fastq reads.fastq #去除每个read头五个碱基
cutadapt -u -7 -o trimmed.fastq reads.fastq # 去除每个read最后7个碱基