https://github.com/samnooij/PathoFact
1、基本介绍
PathoFact是一种易于使用的模块化管道,用于对毒素,毒力因子和抗菌素耐药性进行宏基因组分析。此外,PathoFact将这些致病因素的预测与移动遗传元件的鉴定相结合。通过考虑基因在移动遗传元件(MGEs)以及染色体上的定位,这为分析提供了进一步的深度。此外,PathoFact的每个模块(毒素,毒力因子和抗菌素耐药性)也是一个独立的组件,使其成为灵活多样的工具
2、安装PathoFact
# install miniconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
chmod u+x Miniconda3-latest-Linux-x86_64.sh
./Miniconda3-latest-Linux-x86_64.sh # follow the instructions
3、运行环境(conda)
# creat the conda environment
conda env create -f=envs/PathoFact.yaml
4、用法
input files
每个示例应有一个输入文件:
*.fna
:包含重叠群核苷酸序列的FASTA文件- FASTA 标头中没有空格(即删除空格:sed -i “/^>/ s/ .*//' 文件。
- 用于预测移动遗传元素和浪子的输入
以下文件由 Patho 事实本身生成:
*.faa
:FASTA文件连接翻译的基因序列,即氨基酸序列- 快速页眉中没有空格
- 用于预测毒素、毒力因子和抗菌素耐药性基因
*.contig
:TAB 分隔的文件,其中包含从连续 ID(第 1 列)到基因 ID(第 2 列)的映射- 无标题,每行一个基因ID
- 连续体和基因 ID 应与 FASTA 文件中的相同
每个示例的输入文件应位于同一目录中。对于每个示例,相应的输入文件应具有相同的基本名称,例如 用于示例 。SAMPLE_A.fna
SAMPLE_A
注意:对于宏基因组读取的预处理和组装,我们建议使用 IMP (Integrated Meta-Omics Pipeline | Integrated Meta-Omics Pipeline.)
5、运行PathoFact
要运行 PathoFact,您需要调整 中的一些参数。config.yaml
sample
:这是示例名称的列表,例如
sample:
- Sample1
- Sample2
(其中“样本 1”和“样本 2”与文件名和输入目录中的文件名匹配。Sample1.fna
Sample2.fna
project
:一个唯一的项目名称,它将用作路径中输出目录的名称(见下文)。datapath
datadir
:包含示例数据的目录的路径;输出目录将在那里创建。workflow
:路径可以运行完整的管道(默认)或特定步骤:- “完全”:完全管线 = 毒素 + 毒力 + AMR + MGE 预测
- “毒素”:毒素预测
- “病毒”:毒力预测
- “抗菌素耐药性”:抗菌素耐药性 (AMR) 和移动遗传元件 (MGE) 预测
在管道上执行命令(Basic command to run the pipeline on SLURM)
#activate the cov
conda activate PathoFac
#run the pipeline
snakemake --profile config