病毒组学数据分析 -03 CheckV病毒序列识别

CheckV 是一个完全自动化的命令行管道,用于评估单重叠群病毒基因组的质量,包括识别集成原病毒的宿主污染、估计基因组片段的完整性以及识别封闭基因组。
管道可以分为4个主要步骤:
A:去除原噬菌体上的宿主污染

  • 根据与自定义 HMM 数据库的比较,基因首先被注释为病毒或细菌
  • CheckV 扫描重叠群(5' 到 3'),比较一对相邻ORF之间的基因注释和 GC 含量
  • 此信息用于计算每个基因间位置的分数并识别宿主病毒断点
  • 宿主-病毒断点标识为:
    • 高分 (>1.2)
    • 假定宿主区域中至少有 2 个宿主特异性基因(对于具有 >=10 个基因的重叠群)
    • 推定的病毒区域中至少有 2 个病毒特异性基因(对于具有 >=10 个基因的重叠群)
    • 在假定的宿主区域中至少有 30% 的基因被注释为细菌

B:估计基因组完整性(2 种算法)

  • 基于 AAI 的方法(基因组完整性的精确点估计)
    • 首先,使用 AAI(平均氨基酸同一性)将蛋白质与 CheckV 基因组数据库进行比较
    • 在识别出最高命中后,完整性被计算为重叠群长度(或原噬菌体的病毒区域长度)与匹配的参考基因组长度之间的比率
    • 根据比对的强度和重叠群的长度报告置信水平
    • 一般来说,高可信度和中等可信度的估计是相当准确的,可以信赖
  • 基于 HMM 的方法(基因组完整性的估计范围)
    • 高度新颖的病毒可能不匹配具有足够 AAI 的 CheckV 基因组(即低置信度估计)
    • 在这些情况下,CheckV 识别重叠群上的病毒 HMM,并将重叠群长度与共享相同 HMM 的参考基因组进行比较
    • CheckV 然后返回基因组完整性的估计范围(例如 35% 到 60% 的完整性),它代表基于具有相同病毒 HMM 的参考基因组长度分布的 90% 置信区间

C:预测封闭基因组(3个签名)

  • 直接末端重复 (DTR)
    • 在 contig 的开始/结束处重复序列 >20-bp
    • 我们经验中最值得信赖的签名
    • 可能表示从环状模板(即串联体)复制的环状基因组或线性基因组
  • 原噬菌体(原病毒)
    • 在 5' 和 3' 端预测宿主边界的病毒区域
    • 注意:如果宿主区域已被移除(例如使用 VIBRANT 或 VirSorter,Virsorter2中关闭原噬菌体预测),CheckV 将不会检测原噬菌体
  • 反向末端重复 (ITR)
    • 在 contig 的起始/末端重复 >20-bp 的序列(3' 重复被倒置)
    • 根据我们的经验,最不可信的签名

CheckV 还将报告基于与完整性估计的比较的置信水平:

  • 高置信度:>90% 的估计完整性
  • 中等置信度:80-90% 的估计完整性
  • 低置信度:<80% 估计完整性

对于 DTR 和 ITR,CheckV 执行一些额外的过滤/检查:

  • 重复中的歧义碱基(例如“NNNNN”):<= 20% 的重复序列带有 Ns
  • 重复中的模式碱基频率(例如“AAAAA”):<= 由单个碱基组成的重复序列的 75%
  • 重复序列的最大出现次数:<= 每个重叠群 8 次(去除高度重复的序列)
  • 最大kmer频率:<= 1.5(去除背靠背重复的相同基因组的重叠群)

D:总结质量。
根据 AC 的结果,CheckV 生成报告文件并将查询重叠群分配给五个质量层之一(与 MIUViG 质量层一致并扩展):

  • 完整(高度或中等置信度预测)
  • 高质量(>90% 完整性)
  • 中等质量(50-90% 的完整性)
  • 低质量(<50% 完整性)
  • 质量未定

安装

基于conda

conda install -c conda-forge -c bioconda checkv
#数据库下载(自动)
checkv download_database ./
#数据库下载(手动)
wget https://portal.nersc.gov/CheckV/checkv-db-v1.0.tar.gz
tar -zxvf checkv-db-v1.0.tar.gz
export CHECKVDB=/path/to/checkv-db-v1.0

使用

checkv end_to_end input_file.fna output_directory -t 16

结果解读

quality_summary.tsv

这包含来自三个主要模块的综合结果,主要输出。

contig_idcontig_lengthprovirusproviral_lengthgene_countviral_geneshost_genescheckv_qualitymiuvig_qualitycompletenesscompleteness_methodcomplete_genome_typecontaminationkmer_freqwarnings
15325NoNA1102Not-determinedGenome-fragmentNANANA01no viral genes detected
241803NoNA72271Low-qualityGenome-fragment21.99AAI-based (medium-confidence)NA01flagged DTR
338254Yes3607254232Medium-qualityGenome-fragment80.3HMM-based (lower-bound)NA5.71 
467622NoNA143250High-qualityHigh-quality100AAI-based (high-confidence)NA01.76high kmer_freq
598051NoNA158271CompleteHigh-quality100AAI-based (high-confidence)DTR01 

在上面的例子中,有 6 个病毒重叠群的结果:

  • 第一个 5325 bp 重叠群没有完整性预测,这由“checkv_quality”字段的“未确定”指示。这个重叠群也没有确定病毒基因,所以它甚至可能不是病毒。
  • 第二个 41803 bp 重叠群被归类为“低质量”,因为其完整性 <50%。这是基于“AAI”方法的估计。请注意,quality_summary.tsv 文件中仅报告了高可信度或中等可信度的估计值。您可以查看“completeness.tsv”以获取更多详细信息。这个 contig 有一个 DTR,但它由于某种原因被标记(有关详细信息,请参阅 complete_genomes.tsv)
  • 第三个重叠群被认为是“中等质量”,因为它的完整性估计为 80%,这是基于“HMM”方法。这意味着序列新颖性较高,基于 AAI 估计完整性不准确,但与 CheckV 参考基因组共享一个 HMM。请注意,此值代表一个下限(意味着真正的完整性可能高于但不低于此值)。请注意,该重叠群也被归类为原噬菌体。
  • 第四个重叠群被归类为高质量,基于 >90% 的完整性。但是,请注意“kmer_freq”的值为 1.7。这表明病毒基因组在重叠群中多次出现。这些情况非常罕见,但需要注意。
  • 根据直接末端重复序列 (DTR) 的存在,第五个重叠群被归类为完整的,并且根据 AAI 方法具有 100% 的完整性。该序列可以放心地视为一个完整的基因组


completeness.tsv

关于如何估计完整性的详细概述

contig_idcontig_lengthproviral_lengthaai_expected_lengthaai_completenessaai_confidenceaai_erroraai_num_hitsaai_top_hitaai_idaai_afhmm_completeness_lowerhmm_completeness_upperhmm_hits
19837571353242.810.7high3.710DTR_51715778.534.65154
239498NA37309100medium7.711DTR_35745645.1830.467510022
329224NA44960.165.8low15.217DTR_09123039.7419.54527010
423404NANANANANA0NANANANANA0

在上面的例子中,有 4 个病毒重叠群的结果:

  • 使用基于 AAI 的方法 (100 x 5713 / 53242.8),第一个前病毒重叠群的估计完整性为 10.7%。此估计的置信度很高,基于 3.7% 的相对估计误差,这又基于 aai_id(平均氨基酸同一性)和 aai_af(重叠群的比对分数)与 CheckV 参考 DTR_517517
  • 第二个重叠群使用基于 AAI 的方法具有 100% 的完整性,使用基于 HMM 的方法具有 75-100% 的完整性范围。请注意,重叠群长度比预期的基因组长度 37,309 bp 稍长。
  • 根据 AAI 方法,估计第三个重叠群完成了 65.8%。然而,我们不能完全相信这一点,因为 aai_confidence 很低(意味着基于 AAI 的最高命中相当弱)。为保守起见,我们可能希望报告基于 HMM 方法的完整性范围 (52-70%)
  • 最后一个 contig 没有任何基于 AAI 的命中,也没有任何病毒 HMM,所以我们对这个序列无话可说

contamination.tsv

如何估计污染的详细概述:

contig_idcontig_lengthtotal_genesviral_geneshost_genesprovirusproviral_lengthhost_lengthregion_typesregion_lengthsregion_coords_bpregion_coords_genesregion_viral_genesregion_host_genes
198051158271NoNANANANANANANANA
23825454232Yes360722182host,viral1-2182,2183-382541-2182,2183-382541-4,5-540,232,0
36930912Yes30233907viral,host30,233,9071-3023,3024-69301-5,6-91,00,2
4101630103724Yes2817073460host,viral,host468,042,817,026,6561-46804,46805-74974,74975-1016301-43,44-85,86-1030,7,013,0,11

在上面的例子中,有 4 个病毒重叠群的结果:

  • 第一个 contig 不是预测的原病毒(原噬菌体)
  • 第二个 contig 有一个预测的宿主区域,覆盖 2182 bp
  • 第三个 contig 在左侧有一个宿主区域,,覆盖6930 bp
  • 第四个 contig 有 101630 bp其中有103 个基因,包括 7 个病毒基因和 24 个宿主基因。CheckV 确定了两个宿主病毒边界

complete_genomes.tsv

已确定的假定完整基因组的详细概述:

contig_idcontig_lengthprediction_typeconfidence_levelconfidence_reasonrepeat_lengthrepeat_count
144824DTRhighAAI-based completeness > 90%2532
238147DTRlowLow complexity TR; Repetetive TR2010
367622DTRlowMultiple genome copies detected268572
45477ITRmediumAAI-based completeness > 80%912
5101630Provirusnot-determinedNANANA

在上面的例子中,有 5 个病毒重叠群的结果:

  • 第一个病毒重叠群具有 253 bp 的直接末端重复序列。根据估计的完整性 > 90%,它被归类为高置信度
  • 第二个病毒重叠群具有 20 bp 的 DTR,但 DTR 复杂度低且不可信,导致置信度低。DTR 也发生 10 倍,并且被认为是重复的。
  • 第三个病毒重叠群的 DTR 为 26857 bp!这表明基因组的很大一部分是重复的。CheckV 将这些归类为低置信度,但用户可能需要手动解决这些重复
  • 第四个病毒重叠群的 ITR 为 91 bp。基于 AAI 的完整性 > 80%,这被认为是中等置信度
  • 第五个病毒重叠群的两侧是宿主(前病毒)。但是 CheckV 无法评估完整性,因此置信度未确定

end_to_end 帮助文档和总文档

input         以FASTA格式输入核苷酸序列(支持.gz,.bz2和.xz文件)
  output        输出目录

optional arguments:
  -h, --help    显示此帮助消息并退出
  -d PATH       引用数据库路径。默认情况下,使用 CHECKVDB 环境变量【添加后可不写】
  --remove_tmp  从输出目录中删除中间文件
  -t INT        用于Prodigal和DIAMOND的线程数
  --restart     覆盖现有的中间文件。默认情况下,CheckV 在程序中断的地方继续
  --quiet       禁止记录消息
  
  
programs:
    end_to_end          运行完整的管道以估计完整性,污染并识别封闭的基因组
    contamination       识别并消除集成前病毒上的宿主污染
    completeness        估计基因组片段的完整性
    complete_genomes    根据末端重复序列和侧翼宿主区域识别完整基因组
    quality_summary     跨模块汇总结果
    download_database   下载最新版本的CheckV数据库
    update_database     使用您自己的完整基因组更新CheckV的数据库

参考文献

Bitbucketicon-default.png?t=N7T8https://bitbucket.org/berkeleylab/checkv/src/master/

  • 10
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
机器习在基因组序列分析中的应用研究是一种新兴的研究领域。随着高通量测序技术的发展,生物家们能够快速获得大量的基因组数据,这使得机器习技术成为了一种强有力的工具,可以帮助生物家们更好地理解基因组数据。 机器习技术可以应用于基因组序列分析的许多方面,包括基因预测、基因表达分析、基因组比较和蛋白质结构预测等。例如,基于机器习技术,可以开发出一些高效的基因预测算法,这些算法可以自动地从基因组序列识别出具有生物功能的基因元件。同时,机器习技术还可以应用于基因表达分析中,可以帮助生物家们更好地理解不同基因的表达模式,并预测这些基因在不同条件下的表达模式。 此外,机器习技术还可以应用于基因组比较和蛋白质结构预测中。基于机器习技术,可以开发出一些高效的基因组比较算法,这些算法可以帮助生物家们比较不同物种之间的基因组序列,并揭示它们之间的相似性和差异性。同时,机器习技术还可以用于预测蛋白质的结构,这对于理解蛋白质的功能和调控机制非常重要。 总的来说,机器习在基因组序列分析中的应用研究,已经成为了一种重要的研究领域。通过机器习技术的应用,我们可以更好地理解基因组数据,并推动基因组领域的发展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值