一、什么情况下运行Multi-Kmer mode
当使用MitoZ的quick mode(–run_mode 2),有一些蛋白质编码基因(PCGs)未找到,可以尝试一下multi-Kmer mode(–run_mode 3)。
二、输入文件
在运行该模式前,需要准备好quick mode生成的几个文件作为输入文件,包括:
- work71.hmmout.fa 或 quickMode.fa,提供的fasta文件中要含有您的样品的正确的线粒体基因组序列。
- 要手动创建一个.txt文件,里面描述了在某条序列上编码着哪些PCGs,格式:
seqid1 PCG1 PCG2
seqid2 PCG3 - work71.hmmtblout.besthit.sim.filtered.fa
- work71.hmmtblout.besthit.sim.filtered.high_abundance_*X.reformat.sorted
三、示例
$ python3 MitoZ.py all2 --genetic_code 5 --clade Arthropoda --outprefix test \
--thread_number 12 --fastq1 clean.1.fq.gz --fastq2 clean.2.fq.gz \
--fastq_read_length 150 --insert_size 250 \
--run_mode 3 \
--filter_taxa_method 1 \
--requiring_taxa 'Arthropoda' \
--quick_mode_seq_file quickMode.fa \
--quick_mode_fa_genes_file quick_mode_fa_genes.txt \
--missing_PCGs ND4L ND6 ND2 \
--quick_mode_score_file work71.hmmtblout.besthit.sim.filtered.high_abundance_10.0X.reformat.sorted \
--quick_mode_prior_seq_file work71.hmmtblout.besthit.sim.filtered.fa
输出的结果文件为outprefix.multiKmer_seq_picked.clean.fa,保存在outprefix.assembly2文件夹下。