PathoFact的使用

最新推荐文章于 2025-06-07 16:12:24 发布

原创最新推荐文章于 2025-06-07 16:12:24 发布

· 1.1k 阅读

1 ·

版权

文章标签：

#linux #运维 #服务器

生信专栏收录该内容

17 篇文章

订阅专栏

https://github.com/samnooij/PathoFact

1、基本介绍

PathoFact是一种易于使用的模块化管道，用于对毒素，毒力因子和抗菌素耐药性进行宏基因组分析。此外，PathoFact将这些致病因素的预测与移动遗传元件的鉴定相结合。通过考虑基因在移动遗传元件（MGEs）以及染色体上的定位，这为分析提供了进一步的深度。此外，PathoFact的每个模块（毒素，毒力因子和抗菌素耐药性）也是一个独立的组件，使其成为灵活多样的工具

2、安装PathoFact

# install miniconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
chmod u+x Miniconda3-latest-Linux-x86_64.sh
./Miniconda3-latest-Linux-x86_64.sh # follow the instructions

3、运行环境（conda）

# creat the conda environment
conda env create -f=envs/PathoFact.yaml

4、用法

input files

每个示例应有一个输入文件：

*.fna：包含重叠群核苷酸序列的FASTA文件
- FASTA 标头中没有空格（即删除空格：sed -i “/^>/ s/ .*//' 文件。
- 用于预测移动遗传元素和浪子的输入

以下文件由 Patho 事实本身生成：

*.faa：FASTA文件连接翻译的基因序列，即氨基酸序列
- 快速页眉中没有空格
- 用于预测毒素、毒力因子和抗菌素耐药性基因
*.contig：TAB 分隔的文件，其中包含从连续 ID（第 1 列）到基因 ID（第 2 列）的映射
- 无标题，每行一个基因ID
- 连续体和基因 ID 应与 FASTA 文件中的相同

每个示例的输入文件应位于同一目录中。对于每个示例，相应的输入文件应具有相同的基本名称，例如用于示例。SAMPLE_A.fnaSAMPLE_A

注意：对于宏基因组读取的预处理和组装，我们建议使用 IMP （Integrated Meta-Omics Pipeline | Integrated Meta-Omics Pipeline.)

5、运行PathoFact

要运行 PathoFact，您需要调整中的一些参数。config.yaml

sample：这是示例名称的列表，例如

  sample:
    - Sample1
    - Sample2

（其中“样本 1”和“样本 2”与文件名和输入目录中的文件名匹配。Sample1.fnaSample2.fna

project：一个唯一的项目名称，它将用作路径中输出目录的名称（见下文）。datapath
datadir：包含示例数据的目录的路径;输出目录将在那里创建。
workflow：路径可以运行完整的管道（默认）或特定步骤：
- “完全”：完全管线 = 毒素 + 毒力 + AMR + MGE 预测
- “毒素”：毒素预测
- “病毒”：毒力预测
- “抗菌素耐药性”：抗菌素耐药性（AMR）和移动遗传元件（MGE）预测

在管道上执行命令（Basic command to run the pipeline on SLURM）

#activate the cov
conda activate PathoFac
#run the pipeline
snakemake --profile config