宏基因组学中基于Kraken2、Blast、ViPhOG和VirSorter等工具分析病毒组的详细流程，包括数据预处理、病毒序列检测、分类和功能注释等步骤_uchime

最新推荐文章于 2024-08-30 10:36:35 发布

2401_83947353

最新推荐文章于 2024-08-30 10:36:35 发布

阅读量1k

点赞数 17

文章标签： java 数据库 linux

本文链接：https://blog.csdn.net/2401_83947353/article/details/138249371

版权

* 如果您使用的是Linux或Mac OS，可以使用conda进行安装： 
```
conda install -c bioconda megahit
```

运行MEGAHIT：

对于双端数据，使用以下命令：

megahit -1 reads_1.fastq -2 reads_2.fastq -o output_directory

其中：

 + `-1 reads_1.fastq`和`-2 reads_2.fastq`是你的双端测序数据文件。
 + `-o output_directory`指定输出目录。

对于单端数据，使用以下命令：

megahit -r single_reads.fastq -o output_directory

分析结果：
- MEGAHIT会在输出目录下生成一个名为 contigs.fa 的文件，其中包含了组装后的 contigs。

使用MIRA进行短读长数据的组装：

安装MIRA：
- MIRA的安装通常需要下载并解压预编译的二进制文件，然后将其添加到系统路径中。具体步骤请参考MIRA的官方文档。

运行MIRA：

对于双端数据，创建一个名为 mira_config.txt 的配置文件，内容如下：

PROJECT = your_project_name
SAMPLE = your_sample_name
SETTING = denovo, small, normal, accurate
TECHNOLOGY = illumina
INPUT_TYPE = paired
LIBRARY_TYPE = standard
STRANDNESS = forward
READ_GROUP_NAME = your_read_group_name
FORWARD_READS = reads_1.fastq
REVERSE_READS = reads_2.fastq
OUTPUT_DIR = output_directory

然后运行以下命令：

mira --config mira_config.txt

对于单端数据，将配置文件中的 INPUT_TYPE 改为 single，并将 REVERSE_READS 行删除，然后运行相同的命令。

分析结果：
- MIRA会在输出目录下生成多个文件，包括组装后的 contigs（scaffolds）以及其他一些中间文件和统计信息。

2. 病毒序列检测

初步鉴定

使用Kraken2或者Centrifuge等工具进行宿主去除和病毒序列的初步鉴定。

使用Kraken2进行宿主去除和病毒序列鉴定：

数据准备：
- 确保你已经获得了原始的测序数据，通常是FASTQ格式。
- 如果数据是双端测序，需要将两个文件合并为一个（对于某些工具可能不需要）。
数据库准备：
- 下载或构建包含宿主和病毒参考序列的Kraken2数据库。这通常包括NCBI或其他来源的完整基因组序列。
- 使用kraken2-build工具创建数据库，例如：
```
kraken2-build --download-taxonomy
kraken2-build --download-library viral --use-ftp
kraken2-build --build --threads <num_threads> --db <database_name> viral/
```
运行Kraken2：
- 使用以下命令对测序数据进行分类和鉴定：
```
kraken2 --db <database_name> --report <output_report> --threads <num_threads> --min-confidence 0.5 --classified-out <classified_output> <input_reads>
```
其中：
+ --db <database_name>指定使用的数据库。
+ --report <output_report>生成分类报告。
+ --threads <num_threads>设置并行线程数。
+ --min-confidence 0.5设置最小分类置信度阈值。
+ --classified-out <classified_output>输出分类结果到指定文件。
+ <input_reads>是你的输入测序数据文件。
宿主去除和病毒序列提取：
- 分析Kraken2的输出报告和分类结果，识别出被分类为宿主的reads并从原始数据中去除。
- 提取被分类为病毒的reads，这些就是初步鉴定的病毒序列。

使用Centrifuge进行宿主去除和病毒序列鉴定：

数据准备：
- 同样确保你已经获得了原始的测序数据。
数据库准备：
- 下载或构建包含宿主和病毒参考序列的Centrifuge数据库。可以使用centrifuge-build命令构建数据库：
```
centrifuge-build --name <database_name> --ref <reference_directory> --seq <sequence_file>
```
其中<reference_directory>包含fasta格式的参考序列文件，<sequence_file>是一个包含序列名称和分类信息的tsv文件。
运行Centrifuge：
- 使用以下命令对测序数据进行分类和鉴定：
```
centrifuge -x <database_name> -1 <input_reads_1> [-2 <input_reads_2>] -o <output_prefix> --report-file <output_report> --threads <num_threads>
```
其中：
+ -x <database_name>指定使用的数据库。
+ -1 <input_reads_1>和-2 <input_reads_2>分别指定单端或双端测序数据文件。
+ -o <output_prefix>指定输出文件的前缀。
+ --report-file <output_report>生成分类报告。
+ --threads <num_threads>设置并行线程数。
宿主去除和病毒序列提取：
- 分析Centrifuge的输出报告，识别出被分类为宿主的reads并从原始数据中去除。
- 提取被分类为病毒的reads，这些就是初步鉴定的病毒序列。

病毒预测

使用VirSorter进行嵌段式和整合式病毒的预测。

首先，确保你已经安装了VirSorter和其依赖软件（如Python、BLAST+、Prodigal等）。以下是在Linux环境下使用VirSorter的基本步骤：

数据准备：
- 确保你已经获得了微生物基因组的fasta文件。
下载和安装VirSorter：
- 从GitHub上克隆VirSorter的代码库：
```
git clone https://github.com/jiarong/VirSorter.git cd VirSorter
```
配置环境：
- 确保你的环境中已经安装了BLAST+和Prodigal。如果没有，可以按照以下命令安装：
```
conda install -c bioconda blast prodigal
```
运行VirSorter：
- 使用以下命令运行VirSorter：
```
python virsorter.py -i <input_genome_file> -o <output_directory> --db <database_directory>
```
其中：
+ -i <input_genome_file>指定输入的微生物基因组fasta文件。
+ -o <output_directory>指定输出结果的目录。
+ --db <database_directory>指定VirSorter数据库的目录。如果你还没有下载数据库，可以使用以下命令下载并解压：
wget http://huttenhower.sph.harvard.edu/virsorter/db_virsorter.tar.gz tar -xzf db_virsorter.tar.gz
分析结果：
- VirSorter会在输出目录下生成多个文件，包括分类结果、注释信息和可视化图谱。
- 分析virsorter_output/candidate_viral_proteins.faa和virsorter_output/summary.txt文件，可以获取到预测的嵌段式和整合式病毒的信息。

以下是使用VirSorter的一个完整示例脚本：

# 下载并安装VirSorter
git clone https://github.com/jiarong/VirSorter.git
cd VirSorter

# 安装依赖软件
conda install -c bioconda blast prodigal

# 下载VirSorter数据库
wget http://huttenhower.sph.harvard.edu/virsorter/db_virsorter.tar.gz
tar -xzf db_virsorter.tar.gz

# 运行VirSorter
python virsorter.py -i input_genome.fasta -o output_directory --db db_virsorter

# 分析结果
less output_directory/virsorter_output/summary.txt

在这个脚本中，你需要将input_genome.fasta替换为你的微生物基因组fasta文件的路径，将output_directory替换为你希望保存输出结果的目录。运行这个脚本后，你可以在output_directory/virsorter_output目录下找到预测的结果。

3. 病毒分类注释

使用BLAST对比NCBI病毒数据库进行分类注释（fasta文件较大的话推荐先prodigal然后使用蛋白序列使用diamond做序列比对diamond大基因序列快速比对工具使用详解-包含超算集群多节点计算使用方法_diamond比对-CSDN博客）。

makeblastdb -in virus_database.fasta -dbtype nucl
blastn -query assembled_contigs.fa -db virus_database.fasta -outfmt 6 -max_target_seqs 1 -num_threads $THREADS -evalue 1e-5 > blast_results.txt

或者使用ViPhOG (Viral Phage Orthologous Groups) 进行更精细的分类。

ViPhOG (Viral Phage Orthologous Groups) 是一个专门用于病毒和噬菌体蛋白质分类的系统。以下是如何使用ViPhOG进行更精细的分类：

获取ViPhOG数据库和工具：
- 访问ViPhOG的GitHub页面（https://github.com/bebatut/viphog）并下载最新的ViPhOG数据库和相关的Python脚本。
安装依赖库：
- 确保你的系统已经安装了Python和以下依赖库：
  - Biopython
  - HMMER
  - Diamond
  - CD-HIT如果尚未安装，你可以使用以下命令进行安装（假设你已经安装了conda环境管理器）：

conda install -c bioconda biopython hmmer diamond cd-hit

准备蛋白质序列文件：
- 将你需要分类的蛋白质序列整理成一个或多个人工 fasta 文件。
运行ViPhOG分类：
- 使用以下命令运行ViPhOG分类脚本：

python viphog.py -i your_protein_sequences.fasta -d ViPhOG_database_directory -o output_directory

其中：

* `-i your_protein_sequences.fasta` 是你的蛋白质序列文件。
* `-d ViPhOG_database_directory` 是ViPhOG数据库的目录。
* `-o output_directory` 是输出结果的目录。

分析结果：
- 分类完成后，ViPhOG会在指定的输出目录下生成多个文件，包括比对结果、分类信息等。
- 主要关注 output_directory/viphog_assignments.txt 文件，其中包含了每个蛋白质序列的ViPhOG分类信息。
解读分类信息：
- ViPhOG分类信息是以数字编码的形式表示的，每个数字代表一个特定的蛋白质家族或功能类别。
- 你可以通过查阅ViPhOG数据库中的描述文件来解析这些数字编码，了解每个分类的具体含义。

4. 病毒功能注释

使用InterProScan进行蛋白质结构域和功能注释。

安装InterProScan：
- 如果你还没有安装InterProScan，可以从其官方网站（https://www.ebi.ac.uk/interpro/download.html）下载并按照提供的说明进行安装。
准备蛋白质序列文件：
- 将你需要进行注释的病毒蛋白质序列整理成一个或多个人工fasta文件。
运行InterProScan：
- 使用以下命令运行InterProScan：

interproscan.sh -i your_protein_sequences.fasta -f tsv -dp -goterms -pa -o interpro_results.tsv

其中：

* `-i your_protein_sequences.fasta` 是你的蛋白质序列文件。
* `-f tsv` 指定输出格式为TSV（制表符分隔值），便于后续的数据处理和分析。
* `-dp` 启用深度搜索模式，以提高注释的覆盖率。
* `-goterms` 启用Gene Ontology (GO) 术语注释。
* `-pa` 使用并行处理以加速注释过程（需要根据你的系统配置调整并行线程数）。
* `-o interpro_results.tsv` 指定输出结果的文件名。

分析结果：
- InterProScan运行完成后，会在指定的输出文件（在这个例子中是interpro_results.tsv）中提供详细的蛋白质结构域和功能注释信息。
- 这个文件通常包含以下列：
  - protein_name: 蛋白质名称或标识符。
  - sequence_length: 蛋白质序列的长度。
  - signature_library_match: 结构域或功能注释所基于的数据库或签名库。
  - signature_acc: 结构域或功能注释的唯一标识符。
  - signature_desc: 结构域或功能注释的描述。
  - start: 结构域在蛋白质序列中的起始位置。
  - end: 结构域在蛋白质序列中的结束位置。
  - score: 结构域匹配的得分（如果适用）。
  - status: 结构域匹配的状态（例如，"T"表示确定的匹配，"C"表示条件性的匹配）。
  - go_terms: 相关的GO术语（如果可用）。
解读和可视化结果：
- 使用文本编辑器或数据处理工具（如Excel、R、Python等）打开和分析interpro_results.tsv文件。
- 根据需要筛选和汇总结果，例如按病毒种类、结构域类型或GO术语分类。
- 可以使用专门的可视化工具（如Cytoscape、GSEA或定制的脚本）将结果可视化，以帮助理解蛋白质的功能分布和网络。

或者使用 eggNOG-mapper 对比 eggNOG 数据库进行功能注释。

安装 eggNOG-mapper：
- 如果你还没有安装 eggNOG-mapper，可以从 GitHub（https://github.com/eggnogdb/eggnog-mapper）下载并按照提供的说明进行安装。
下载 eggNOG 数据库：
- 访问 eggNOG 网站（http://eggnogdb.embl.de/version/latest/download/）下载最新的 eggNOG 数据库。
- 解压下载的数据库文件，并记住解压后的目录路径。
准备蛋白质序列文件：
- 将你需要进行功能注释的病毒蛋白质序列整理成一个或多个人工fasta文件。
运行 eggNOG-mapper：
- 使用以下命令运行 eggNOG-mapper：

emapper.py -i your_protein_sequences.fasta --output outdir --cpu 4 --mode s --Diamond blastp --orthologs best --evalue 1e-5 --annotation cut_ga --evolutionary-distance 0.7 --search-tool diamond --database eggNOG_database_directory

其中：

* `-i your_protein_sequences.fasta` 是你的蛋白质序列文件。
* `--output outdir` 指定输出结果的目录。
* `--cpu 4` 设置使用的CPU核心数（根据你的系统配置调整）。
* `--mode s` 选择快速搜索模式（适用于大规模数据集）。
* `--Diamond blastp` 使用Diamond进行蛋白质比对。
* `--orthologs best` 只保留最佳的同源群注释。
* `--evalue 1e-5` 设置Diamond比对的E-value阈值。
* `--annotation cut_ga` 启用GO和EC编号的注释。
* `--evolutionary-distance 0.7` 设置进化距离阈值。
* `--search-tool diamond` 指定使用Diamond作为搜索工具。
* `--database eggNOG_database_directory` 指定eggNOG数据库的目录。

分析结果：
- eggNOG-mapper运行完成后，会在指定的输出目录（在这个例子中是outdir）中提供详细的蛋白质功能注释信息。
- 这个目录通常包含以下文件：
  - emapper.annotations：包含每个蛋白质的详细注释信息，包括同源群、GO术语、EC编号等。
  - emapper.best_hits.tsv：包含每个蛋白质的最佳同源群注释。
  - emapper.results.all_contigs.tsv：包含所有比对结果的汇总信息。
解读和可视化结果：
- 使用文本编辑器或数据处理工具（如Excel、R、Python等）打开和分析emapper.annotations文件。
- 根据需要筛选和汇总结果，例如按病毒种类、GO术语或EC编号分类。
- 可以使用专门的可视化工具（如Cytoscape、 REVIGO、定制的脚本）将结果可视化，以帮助理解蛋白质的功能分布和网络。

5. 病毒丰度和多样性分析

使用Bracken对Kraken2的结果进行校正，得到更准确的病毒丰度。

bracken -k viral_classification.kraken2 -o bracken_output -t $THREADS -c contig_lengths.txt

使用UCHIME或vFam进行嵌段式病毒的去冗余。

使用UCHIME进行去冗余：

UCHIME主要用于检测和去除PCR和测序过程中的假阳性序列（如chimeras）。虽然它最初设计用于16S rRNA基因的分析，但也可以应用于其他类型的序列，包括病毒序列。以下是一个基本的UCHIME命令行示例：

usearch -uchime_ref query_sequences.fasta -db reference_sequences.fasta -strand both -uchimeout uchime_output.uc

这里：

query_sequences.fasta 是你的待去冗余的病毒序列文件。
reference_sequences.fasta 是你的参考序列文件，可以包含已知的病毒序列或其他相关序列。
-strand both 表示在正反两条链上都进行去冗余分析。
-uchimeout uchime_output.uc 指定输出结果的文件名。

UCHIME将生成一个.uc格式的输出文件，其中包含了可能的chimeric序列的信息。你可以根据这些信息进一步过滤或去除潜在的冗余序列。

使用vFam进行去冗余：

vFam是一个专门针对病毒家族进行分类和去冗余的工具。它基于HMM（Hidden Markov Model）模型，可以识别和分类病毒序列。以下是一个基本的vFam命令行示例：

vfam classify --input query_sequences.fasta --output classified_sequences.fasta --hmms_dir vfam_hmms_directory

这里：

query_sequences.fasta 是你的待去冗余的病毒序列文件。
classified_sequences.fasta 是输出的分类和去冗余后的序列文件。
vfam_hmms_directory 是包含vFam HMM模型的目录。

vFam将对输入的序列进行分类，并将结果写入到classified_sequences.fasta文件中。在这个过程中，vFam会自动去除冗余的序列。

使用Alpha diversity和Beta diversity指标（如Chao1、Shannon指数、UniFrac等）进行病毒群落多样性的分析。

Alpha多样性分析：

Alpha多样性主要关注单一样本内的物种丰富度和均匀度。以下是一些常用的Alpha多样性指数及其计算方法：

Chao1指数：
- Chao1指数是一种估计样品中未观测到的物种数目的方法，反映了物种丰富度。
- 在R语言中，可以使用vegan包中的estimateR函数计算Chao1指数。
Shannon指数：
- Shannon指数考虑了物种丰富度和相对丰度，反映了物种多样性。
- 在R语言中，可以使用vegan包中的diversity函数计算Shannon指数。

Chao1：对于基于病毒序列的数据，你可能需要先将数据转换为OTU（Operational Taxonomic Unit）表或者物种丰度矩阵，然后才能使用estimateR函数。以下是一个基本的示例：

library(vegan)

# 假设你已经有了一个OTU计数矩阵otu_table，其中行是样本，列是OTUs
# 并且你已经有了一个样本分类信息的数据框sample_data

# 计算Chao1指数
chao1 <- estimateR(otu_table, method = "chao1")

# 将结果与样本分类信息合并
alpha_diversity <- cbind(sample_data, Chao1 = chao1)

在这个例子中，otu_table是一个矩阵，其中每个元素表示对应样本中特定OTU的数量。estimateR函数的method参数设置为"chao1"，以指示计算Chao1指数。

然而，如果你的数据是原始的病毒序列数据，你可能需要先进行一些预处理步骤，例如：

序列聚类：将相似的序列聚类为OTUs。
计算OTU丰度：统计每个样本中每个OTU的数量。

这些步骤通常可以通过使用其他生物信息学工具或R包（如DECIPHER、cluster等）来完成。一旦你得到了OTU计数矩阵，就可以使用estimateR函数计算Chao1指数了。

Shannon指数以下是一个基本的R代码示例：

library(vegan)

# 假设你已经有了一个OTU计数矩阵otu_table，其中行是样本，列是OTUs
# 并且你已经有了一个样本分类信息的数据框sample_data



### 最后的话

最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！

### 资料预览

给大家整理的视频资料：

![](https://img-blog.csdnimg.cn/img_convert/2b6c1ae4ec0537edbe4e86543ca9cd7c.png)

给大家整理的电子书资料：

  

![](https://img-blog.csdnimg.cn/img_convert/cb95547de6ebcab001587c644d7bccf5.png)



**如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！**

**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化的资料的朋友，可以点击这里获取！](https://bbs.csdn.net/topics/618542503)**


**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**
是样本，列是OTUs
# 并且你已经有了一个样本分类信息的数据框sample_data



### 最后的话

最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！

### 资料预览

给大家整理的视频资料：

[外链图片转存中...(img-6w1TIVfx-1714199774717)]

给大家整理的电子书资料：

  

[外链图片转存中...(img-A5VjPAKx-1714199774718)]



**如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！**

**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化的资料的朋友，可以点击这里获取！](https://bbs.csdn.net/topics/618542503)**


**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**