根据ID提取序列
seqkit grep -f id.txt input.fa > output.fa
seqkit grep -n -f id.txt input.fa > output.fa
计算fasta序列长度
seqkit fx2tab --length --name --header-line test.fa > output.fa
反向互补fasta序列
seqkit seq test.fa -r > test_re.fa
seq test.fa -p > test_com.fa
seqkit seq test.fa -r -p > test_re_com.fa
DNA与RNA互转
seqkit seq test.fa --nda2rna > test.rna.fa
seqkit seq test.fa --rna2dna > test.dna.fa
序列以小写或者大写字母输出
seqkit seq test.fa -l > test_lower.fa
seqkit seq test.fa -u > test_upper.fa
过滤fasta序列长度
seqkit seq -m 60 test.fa
seqkit seq -M 600 test.fa
seqkit seq -m 60 -M 600 test.fa
提取fasta的ID
seqkit seq test.fa -n > test.id
seqkit seq test.fa -n -i > test.id
删除序列中的gap(-)
seqkit seq -g test.fa > out.fa
截取指定区域的序列
seqkit subseq -r 1:100 test.fa > out.fa
seqkit subseq -r -100:-1 test.fa > out.fa
根据gtf提取目标染色体上目标区域的序列
seqkit subseq --gtf test.gtf --chr 1 --feature cds test.fa > test_chr1_cds.fa
seqkit subseq --gtf test.gtf test.fa -u 3 > out.fa
seqkit subseq --gtf test.gtf test.fa -u 3 -f > out.fa
滑窗提取序列
seqkit sliding -s 3 -W 6 test.fa > out.fa
seqkit sliding -s 3 -W 6 -g test.fa > out.fa
seqkit sliding -s 3 -W 6 -C test.fa > out.fa
fastq转为fasta
seqkit fq2fa test.fq.gz -o test.fa
翻译DNA/RNA为蛋白质序列
seqkit translate test.fa > out.fa
seqkit translate test.fa
seqkit translate test.fa --trim > out.fa
提取包含指定碱基的fa
seqkit grep -r -p ^AGC test.fa > out.fa
seqkit grep -r -p ^AGC -p ^mmu -v test.fa > out.fa
seqkit grep -s -i -p aggcg test.fa > out.fa
seqkit grep -s -r -i -p ^aggcg test.fa > out.fa
定位指定序列位置
seqkit locate -i -d -p AUGGACUN --bed
seqkit locate -i -d -p AUGGACUN --gtf
引物检索
echo -ne ">seq\nacgcccactgaaatga\n" seqkit amplicon -F ccc -R ttt test.fa > out.fa
echo -ne ">seq\nacgcccactgaaatga\n" seqkit amplicon -F ccc -R ttt --bed test.fa > out.bed
删除重复序列
seqkit rmdup -s test.fa -o out.fa
拆分fasta
seqkit split2 test.fa -s 10000 -2
seqkit split2 test.fa -r 1:3 -2
seqkit split2 -1 C1_1.fq.gz -2 C1_2.fq.gz -p 2 -O out -f
fastq随机抽样
seqkit sample -p 0.1 test.fq.gz -o test_10.fq
seqkit sample -s 123 -p 0.1 test.fq1.gz -o test_10_1.fq
seqkit sample -s 123 -p 0.1 test.fq2.gz -o test_10_2.fq
seqkit sample -n 1000 test.fq.gz -o test_sample.fq