High-Quality Genome-Scale Models From Error-Prone, Long-Read Assemblies高质量的基因组尺度模型来自易出错的，长时间读取的程序集

最新推荐文章于 2024-10-10 07:39:13 发布

wangchuang2017

最新推荐文章于 2024-10-10 07:39:13 发布

阅读量1.8k

点赞数

本文链接：https://blog.csdn.net/u010608296/article/details/113086584

版权

生物信息学同时被 3 个专栏收录

642 篇文章

订阅专栏

文献

170 篇文章

订阅专栏

基因组组装assembly

53 篇文章

订阅专栏

高质量的基因组尺度模型来自易出错的，长时间读取的程序集

误差杆，长读装配的高质量基因组规模模型

贾里德T. Broddrick 1 *†，理查德舒宾2，查尔斯J. Norsigian 2，乔纳森M.僧2，哈德O.保尔松2和玛丽Parenteau的N. 1

1美国加利福尼亚州莫菲特菲尔德，美国宇航局埃姆斯研究中心，空间科学和天体生物学科，外生生物学科
2加利福尼亚大学圣地亚哥分校生物工程系，加利福尼亚州拉荷亚

基于纳米孔的测序技术的进步使得能够快速表征基因组和转录组。这种测序技术的新兴应用是病原菌的即时护理特性。但是，仅基因组评估不能完全了解病原体表型。基因组规模的代谢重建和分析是一种自下而上的系统生物学技术，阐明了抗微生物耐药性（AMR）细菌和其他人类病原体的表型差异。将这些基因组规模的模型（GEM）与即时点纳米孔测序相结合，是应对AMR病原体新兴健康挑战的一种有前途的策略。但是，纳米孔技术固有的测序错误可能会对质量产生负面影响，因此对实用性，从纳米孔组件重建的GEM的数量。在这里，我们描述并验证了从纳米孔（MinION）衍生的组件快速构建GEM的工作流程。根据高质量的参考GEM对管道进行基准测试大肠杆菌K -12产生了纳米孔衍生的模型，即使在小于10倍覆盖范围的测序深度下，也能完成> 99％。将管道应用于病原菌的临床分离株，产生了特定菌株的GEM，可以鉴定出典型的AMR基因组含量，并能够模拟特定菌株的微生物生长。此外，我们表明将测序运行作为模拟的元基因组并不会降低衍生自元基因组程序集的模型的质量。综上所述，这项研究表明，将纳米孔测序与GEM构建管线结合起来可以实现微生物代谢的快速，原位表征。

基于纳米孔的测序技术的进步使得能够快速表征基因组和转录组。这种测序技术的新兴应用是病原菌的即时护理特性。但是，仅基因组评估不能完全了解病原体表型。基因组规模的代谢重建和分析是一种自下而上的系统生物学技术，阐明了抗微生物耐药性（AMR）细菌和其他人类病原体的表型差异。将这些基因组规模的模型（GEM）与即时点纳米孔测序相结合，是应对AMR病原体新兴健康挑战的一种有前途的策略。但是，纳米孔技术固有的测序错误可能会对质量产生负面影响，因此对实用性，从纳米孔组件重建的GEM的数量。在这里，我们描述并验证了从纳米孔（MinION）衍生的组件快速构建GEM的工作流程。根据高质量的参考GEM对管道进行基准测试大肠杆菌K-12产生了纳米孔衍生的模型，即使在小于10倍覆盖范围的测序深度下，也具有> 99％的完整性。将管道应用于病原菌的临床分离株，产生了特定菌株的GEM，可以鉴定出典型的AMR基因组含量，并能够模拟特定菌株的微生物生长。此外，我们证明将测序运行作为模拟的元基因组并不会降低衍生自元基因组装配体的模型的质量。总而言之，这项研究表明，将纳米孔测序与GEM构建流程结合起来可实现快速，原位微生物代谢的表征。

介绍

测序技术的最新进展为基因组和转录组的原位分析提供了可能性。尤其是，纳米孔MinION测序仪（英国牛津的牛津纳米孔技术公司）已成为该应用领域中的一项有前途的技术。运行该设备所需的小尺寸和计算足迹（Lu等人，2016）已使其能够用于人类健康环境，例如生物威胁病原体的检测（Gargis等人，2019），以及在极端环境中，例如南极洲（Johnson等，2017）和国际空间站（Castro-Wallace等，2017））。该平台产生相对较长的测序读数，可在低覆盖深度下组装基因组（Wick和Holt，2019年）。这减少了从纳米孔读段组装基因组所需的计算资源，便利了可以在个人笔记本电脑上运行的生物信息学管道（Castro-Wallace等人，2017）。然而，尽管试剂化学，流通池设计和计算碱基调用算法取得了进步，但与短读测序技术相比，该技术的共识基因组准确性较低，尤其是在均聚物区域（Gargis等，2019）。存在计算技术来纠正由这些测序错误引起的移码突变（Arumugam等人，2019）; 但是，在MinION设备的便携性是其独特功能的严峻环境中，可能无法使用资源密集型技术。

现场即时诊断病原菌是这些技术和方法的有希望的原位应用（van Belkum and Rochas，2018 ; Monk，2019）。在标准医院实验室中，基于短读（Raven等，2019）和混合装配（Hikichi等，2019）的方法成功评估了金黄色葡萄球菌（以下简称金黄色葡萄球菌）对甲氧西林的耐药性。此外，纳米孔测序技术还可以在临床环境中快速分析出抗菌素耐药性（AMR）病原体，并对患者微生物群进行表征（Leggett et al。，2020）。然而，对基于基因组的方法的批评是它们无法阐明对致病表型的理解（Hendriksen et al。，2019）。病原细菌的基因组规模代谢模型的最新发展显示出有望填补基因型和表型之间的空白。

基因组规模的代谢重建是表征和分析细菌毒力和抗生素抗性的新兴工具。这些重建是根据生物体基因组中编码的带注释的代谢成分建立的生化知识库。当受约束参数化时，这些重建就成为基因组规模模型（GEM），可在给定的一组环境条件下模拟生物体的表型（O'Brien等人，2015）。迄今为止，已经为包括大肠杆菌在内的各种致病细菌建立了基因组规模的重建技术（Monk等，2013），沙门氏菌的多种菌株（Seif等，2018），鲍曼不动杆菌（Norsigian等人，2018），金黄色葡萄球菌（Seif等人，2019），肺炎克雷伯菌（Norsigian等人，2019）和口头链球菌（Jensen等人，2020）等。尽管在这些模型中对AMR机制的直接模拟仍处于起步阶段，但由这些重建产生的GEM阐明了差异代谢能力，这些能力为了解这些病原体的表型提供了一个窗口，而不仅仅是提供基因组含量的AMR的简单存在。例如，肺炎克雷伯菌的其他氮资源利用被用于按抗生素耐药性对菌株进行分类（Norsigian et al。，2019）。此外，越来越多的共识认为细菌代谢代表了细菌发展AMR进化轨迹的能力的基本限制（Zampieri等，2017）。由于基因组规模的代谢重建是基于带注释的基因组，因此将即时点测序与快速代谢模型构建相结合将增加现有的仅基因组评估。但是，尚不清楚MinION装配精度是否足以构建高质量的基因组规模模型。

材料和方法

其他方法的详细信息和示例代码可以在补充材料中找到。

组装与改造管道

阅读筛选和适配器整理

有关MinION测序和碱基检出的详细信息，请参见下面的样本特定部分。使用命令行将Fast5格式的基本调用读入一个文件中。使用qcat通过其各自的条形码分离多重样品 1。短于1,000 bp的读数（默认情况下）使用Nanofilt去除（ De Coster等人，2018），并使用Porechop修剪衔接子 2，带有–no_split参数，在ONT生物信息学软件包Pomoxis中实现 3。

后基因组大小确定

使用miniasm（Li，2016）（如在Pomoxis中实施的方法）将经过过滤和修剪的读数组装在一起，并进行一轮Racon抛光（Vaser等人，2017年）以创建共有序列。用Biopython软件包中的SeqIO解析了这种低质量的程序集（Cock等，2009），总基因组/基因组总大小被确定为大于100 kbp的所有序列的总和。

基因组大会

使用Flye [v2.6，（Kolmogorov等，2019）]组装读段。上面确定了基因组大小参数，最小重叠设置为1,500 bp，并使用–plasmids参数。此外，对于元基因组，还包括–meta参数。对于某些分析，使用了–asm_coverage参数并将其设置为70×。解析所得的程序集，并通过将覆盖范围为10倍或更大的所有重叠群求和来确定总大小。如果初始和最终基因组大小参数相差2倍，则以新的基因组大小值重复装配。

基因组抛光

使用minimap2将读取的内容映射到装配体后，将Flye的装配体草图用两轮Racon抛光（Li，2016年）。Racon抛光组件使用ONT的Medaka共识抛光工具（v0.9 4）。

重叠群

基于Flye汇编器评估为圆形的重叠群与线性重叠群分离，覆盖率小于10倍的重叠群也是如此。根据Flye输出，GC含量差异小于5％（由SeqIO确定）和覆盖率差异小于15％（基于Flye输出）的线性重叠群被分组到一个文件夹中，以进行后续分析。

基因组规模模型构建草案

所有重叠群均使用Prokka注释[v1.13（Seemann，2014）]。通过将Prokka的Genbank文件输出作为基于参考的模型构建协议的输入（Norsigian等，2020b），或以Prosta格式从Prokka输出的蛋白质序列作为CarveMe的输入，来构建基因组规模的模型草案。（Machado等人，2018）。使用NCBI Blast搜索工具（Camacho等人，2009）或DIAMOND搜索（Buchfink等人，2015）对基于Uniprot的Swissprot数据库进行基于同源性的搜索，对未包含在代谢重建草案中的内容进行注释。 [下载：2020/03/22，（UniProt联盟，2019年）]。

分割ORF恢复

通过在Prokka和Swissprot数据库的蛋白质序列之间生成双向（相互）最佳匹配映射，恢复了由于测序错误而被分为多个片段的开放阅读框。具有相同Swissprot最佳命中力的相邻基因被组合成一个氨基酸序列，并以Fasta格式输出到新文件中。上面的引用相关协议中使用了此新文件。

大肠杆菌K -12 str。BOP27验证实验

培养

首先将来自冷冻甘油储备的大肠杆菌K -12菌株BOP27划线在LB琼脂平板上，并在37°C下生长过夜。用单个菌落接种几毫升的LB培养基，并生长到指数后期。

DNA提取

离心沉淀细胞，重悬于500μLSETS缓冲液（75 mM NaCl，25 mM EDTA pH 8、20 mM Tris-HCl pH 7.5、25％蔗糖）中。然后加入5μLRNaseA和10μL溶菌酶，并将样品在37°C下孵育60分钟。加入14μL蛋白酶K和30μL20％SDS，通过颠倒轻轻混合样品，偶尔在55°C下颠倒孵育2 h。加入200μL5 M NaCl，通过轻轻倒置将样品充分混合。然后加入500μL氯仿，并通过在室温下轻轻颠倒30分钟来混合样品。在4,500× g下离心15分钟在室温下，将上部水相转移至新的1.5mL管中，并进行另一轮氯仿萃取。将上部水相转移至新的1.5mL管中。测量体积，并将1/10体积的3M乙酸钠加入样品中。用0.7体积的异丙醇沉淀DNA，并将样品放在慢速摇杆上5分钟。用巴斯德移液管将丝状基因组DNA沉淀物捞出，形成钩子并用火焰密封，然后转移到一系列3个微量离心管中，每个离心管中均含1 mL 70％的乙醇。将最终的管离心以沉淀DNA，并用移液管除去乙醇。将沉淀风干几分钟，然后重悬于无核酸酶的水中。使用Nanodrop评估基因组DNA制备物的质量，

MinION测序

在MinION R9.4流通池[Oxford Nanopore（ONT）]上对天然BOP27基因组DNA（gDNA）进行了测序。测序文库是使用ONT快速条形码测序试剂盒（SQK-RBK004）根据制造商的规程制备的，并作了以下修改：将两个1 mL和0.5μggDNA分别装在0.2 mL PCR管中，在ONT EB中稀释至9μL（ 10 mM Tris，50 mM NaCl，pH 8.0）。分别以3：1和1：1（μggDNA：μL碎片混合物）的比例添加条形码碎片混合物到1和0.5μg样品中。将一半文库（〜0.75μg）加载到MinION流通池中，而不加载磁珠。在装载之前，使用ONT EB使总库体积达到75μL。测序在具有约700个活性孔的流通池中进行6小时。使用ONT Guppy basecaller（v3.2。2）在具有Intel i7-6550U处理器和8 GB RAM的笔记本电脑上具有GPU加速功能，该笔记本计算机通过Thunderbolt 3连接通过Nvidia GTX1070（1920 CUDA内核，8 GB VRAM）连接到外部GPU外壳。通过使用高精度的默认设置，通过碱基对修改的高精度和快速的碱基调用算法，可以启用质量过滤。用qcat（v1.1.0解复用了基本调用的读取 5）在组装之前。

组装和注释

上面的管道用于生成草稿装配和注释，以实现高精度，具有碱基对修改的高精度和快速的碱基检出方法。通过随机对总数据集（大约320x覆盖范围）进行随机采样，生成15、20、40和100x覆盖范围（在大小过滤和适配器修整之前）的N50值为20和10 k的读取子集。另外，通过获取15x子集并删除所有大于15 kbp的读数，生成了“最坏情况”子集。使用Pomoxis中的评估装配功能确定BOP27菌株装配相对于大肠杆菌K12菌株MG1655参考的总体准确性 6。使用MUMmer中的dnadiff函数确定单核苷酸多态性（SNPs）和InDel（ Kurtz et al。，2004）。设置NanoFilt参数以除去短于2,000个碱基对的读数，然后再使用Porechop进行适配器和条形码修整。所有组件均在配备有Intel i7-8650U处理器和16 GB RAM的便携式计算机上生成。

草图模型构建

上面的管道用于生成基因组规模的新陈代谢重建（GEM）草稿。最近的大肠杆菌菌株K12 MG1655亚株GEM，我（ML1515 。僧等人，2017）被用作参考模型和参考基因组（NCBI参考序列：NC_000913.3）。从Uniprot下载的Swissprot数据库（（UniProt联盟，2019年，下载：2020年3月22日）被用作参考数据库，而DIAMOND（Buchfink等人，2015年）被用于创建双向最佳命中列表。使用Jupyter Notebooks中的默认GLPK求解器，使用COBRApy（Ebrahim等人，2013）以Python编程语言进行了模型构建和仿真。Kluyver et al。，2016）。

病原菌的组装和重建

培养方法

以与上述大肠杆菌相同的方式培养金黄色葡萄球菌，鲍曼不动杆菌（以下称为鲍曼不动杆菌）和粪肠球菌（以下称为屎肠球菌）的临床分离株。DNA提取利用与上述大肠杆菌相同的方案，不同之处在于使用溶葡萄球菌素代替溶菌酶。

MinION测序

在MinION R9.4流通池[Oxford Nanopore（ONT）]上对天然基因组DNA（gDNA）进行了测序。测序文库使用ONT快速条形码测序试剂盒（SQK-RBK004）根据制造商的规程进行了以下修改：制备：将gDNA输入增加到800 ng基因组DNA，并省略了可选的SPRI珠纯化。使运行进行约6小时。

组装和注释

上面的管道用于生成草稿装配和注释，以实现高精度（HAC）和具有碱基对修饰（HAC + mod）基本调用方法的高精度。设置NanoFilt参数以除去短于1,000个碱基对的读数，然后再使用Porechop进行适配器和条形码修整。将Flye的最小重叠量设置为1,500 bp，并启用了–plasmid选项。所有组件均在配备有Intel i7-8650U处理器和16 GB RAM的便携式计算机上生成。

草图模型构建

上面的管道用于从临床分离株的基因组草图中生成基因组规模的代谢重建草图（GEM）。对于金黄色葡萄球菌，菌株USA300亚株TCH1516的最新GEM，即YS854（Seif等，2019），被用作参考模型和参考基因组（NCBI参考序列：NC_010079.1）。对于鲍曼不动杆菌，菌株AYE的最新GEM，即CN718（Norsigian等，2018）被用作参考模型和参考基因组（NCBI参考序列：NC_010410.1）。从Uniprot [（The UniProt Consortium，2019），下载时间：2020年3月22日）作为参考数据库，使用DIAMOND（Buchfink等人，2015）创建双向最佳匹配列表。独特的基因组含量被定义为未映射到参考基因组的推定开放阅读框（80％的ID截止值和e-10的e值截止值）。通过使用DIAMOND对Swissprot数据库进行同源搜索，注释了这些蛋白质。这些注释通过人工方式进行代谢成分的管理，从在线数据库[BiGG（Norsigian等，2020c）和KEGG（Kanehisa和Goto，2000 ; Kanehisa等，2019）确定催化的生化反应。）]，然后将反应手动编码到代谢重建草案中，以创建完整的精选GEM。

粪肠球菌临床分离株的代谢重建草案是使用上述多菌株重建管道的改良版（补充材料）和以下参考基因组规模重建生成的：乳酸乳球菌亚种。cremoris MG1363，i NF516（Flahaut等，2013），大肠杆菌K12菌株MG1655，i ML1515（Monk等，2017），枯草芽孢杆菌168，i YO844（Oh等，2007），和金黄色葡萄球菌USA300亚株TCH1516，i YS854（Seif等人，2019）。还使用CarveMe（Machado等人，2018）使用默认设置生成了草稿重构。使用Jupyter Notebooks中的默认GLPK求解器（Kluyver等人，2016），使用COBRApy（Ebrahim等人，2013）在Python编程语言中进行了模型仿真和重构。

模拟元基因组大会

元基因组在流水线之后进行组装，而在组装之前无需对条形码读段进行多路分解。通过使用NCBI基本局部比对搜索工具[BLAST（Camacho et al。，2009）]针对非冗余数据库，通过对每个bin重叠群中注释的蛋白质进行同源搜索，手动确定bin污染。

系统学分析

使用GToTree（Lee，2019）及其包含的工具（Edgar，2004年; Capella-Gutiérrez等人，2009年; Hyatt等人，2010年; Price等人，2010年; Eddy，2011年; Tange， 2018 ;沉和雄，2019）。通过获取Prokka蛋白序列FASTA文件并将其与NCBI基因组数据库中该物种的所有Refseq程序集进行比较，对具有该物种其他菌株的临床分离株进行了系统生物学分析。为了将临床分离株放置在BiGG模型数据库系统发育中，对该数据库进行了解析，以获取用于重建每个GEM的NCBI登录号，从NCBI下载了基因组并进行了分析。为了将BiGG模型放置到微生物的生命树中，从NCBI基因组浏览器（大约3200个基因组）下载了所有代表性，完整古细菌和细菌基因组的表格。从该列表中，选择了每个门的单个代表（54个基因组），并将基因库文件传递给GToTree进行分析。Letunic和Bork，2019年）。可以在补充材料中找到使用的NCBI登录号列表。

结果

组装与改造管道

我们的目标是评估基于MinION的装配产生的基因组规模代谢网络重建的质量。组装和草图重建流水线旨在将提取的gDNA快速带入用于表征微生物代谢的环境框架（图1）。我们利用现有的研究来比较长期阅读的汇编程序来开发我们的汇编程序（Wick和Holt，2019）。Flye组装机（Kolmogorov等人，2019）显示了速度和准确性的最佳平衡，并用于我们的所有组装中。蝇需要近似的基因组或元基因组大小。因此，我们使用了一种快速但不准确的组装方法[miniasm（（Li，2016）]估算Flye组装前的基因组大小。如果已知大约的基因组大小，则可以跳过此步骤。根据ONT的建议，我们在运行组装抛光机Medaka之前，先用多轮Racon抛光Flye组件（Vaser等，2017）。我们尝试将现有的分箱工具用于我们的元基因组[BinSanity（Graham et al。，2017）]；但是，这些程序所需的计算资源超过了典型的笔记本电脑。由于我们的管道专为在严峻的现场条件下使用而设计，因此我们基于覆盖率和重叠群GC含量实施了一种简单的分箱策略。这种方法需要在注释和模型构建之前手动管理合并的重叠群。

图1

图1.本研究中使用的基因组组装和模型构建流程的示意图。

我们采用了参考依赖和独立的策略来产生代谢重建草案。我们根据参考模型修改了最近发布的用于构建多菌株代谢重建的方案（Norsigian等，2020b）。该协议的输入需要NCBI Genbank格式的文件。注释工具Prokka包含适合此管道输入的Genbank格式的输出。对于没有密切相关菌株或物种参考模型的生物，我们使用了CarveMe（Machado等人，2018），该工具使用了整个BiGG模型数据库（King等人，2016）和同源性搜索来生成草稿基因组规模的网络重建。另一个自动重建工具modelSEED（亨利（Henry）等人，2010）可用，但未使用，因为它的性能与CarveME相似或较差（Machado等人，2018），并且它对反应和代谢物使用了不同的命名空间，因此很难进行模型比较。

**用大肠杆菌K -12进行管道验证**

我们评估奴才测序概括精心策划的能力，我们的管道大肠杆菌菌株ķ -12亚株MG1655基因组尺度模型我ML1515（Monk等人，2017年）。这项研究的主要目的是优化时间与准确性之间的权衡；因此，我们针对原始阅读探索了多种碱基检出策略。CPU基本调用速度非常慢（大约几天到几周）；因此，我们只提供了GPU加速的碱基检出结果，其结果快了100倍。MinION产生了大约200 k读取，其中83％通过了Q所有基本调用方方法的得分质量阈值；然而，这83％的读数构成了94％的碱基对序列。大肠杆菌基因组的覆盖深度根据碱基检出方法的不同而不同。高精度算法（带或不带甲基化调用）的覆盖率约为307倍，而快速方法的覆盖率仅为260倍。所有方法的N50 / N90值约为21/6 kbp。高精度碱基检出模型需要177分钟，而快速方法需要53分钟（表1）。

表格1

表1.大肠杆菌K12菌株的组装统计摘要。BOP27。

我们比较了不同轮数的Racon与Medaka结合后的抛光基因组（表2）。总体上讲，带有一轮Racon的极小值在精度上与Flye组件相似，没有额外的抛光步骤，尽管仅Flye导致SNP降低了六倍，这可能是由于Flye的内置抛光步骤所致。与单独使用Flye相比，使用Medaka抛光Flye组件可提高组件的精度。必须进行两轮Racon，足以使组装精度最大化（表2）。

表2

表2.大肠杆菌K12菌株的组装质量 BOP27在流水线中的不同步骤处读取，并使用启用了甲基化调用的高精度算法来读取碱基调用。

我们评估了三种不同的基本通话模型的时间与准确性之间的权衡。Guppy基本调用程序可以利用快速算法以及两种高精度（HAC）算法；其中之一解释了A和C核苷酸的甲基化（HAC + mod）。如前所述，HAC算法花费的时间比Fast算法长大约3倍。在相似覆盖率值下（HAC算法均为〜300x，Fast算法为260x），程序集的整体精度存在很大差异，对于HAC + mod，HAC和Fast算法，其Q得分分别为32.0、27.3和24.3。，分别（表1）。所有这三种方法均导致单个重叠群的大小比参考基因组短1.7至3.3 kbp。与HAC算法相比，HAC + mod算法将SNP的数量减少了200倍，这表明DNA修饰对读取准确性有重大影响。与HAC算法相比，HAC + mod算法中的InDels数量减少了33％。快速算法产生的装配具有10,000多个SNP和4,300个InDel（表1）。

我们评估了覆盖深度对装配精度和碱基读取时间的影响。我们对HAC + mod读数进行二次采样以生成两个基因组覆盖率分别为15、20、40和100x覆盖率的数据集。一个数据集的N50值保留为原始值（大约21 kbp），而对一组数据进行子采样以使其N50值为11 kbp。然后将这些集合过滤以除去小于2,000 bp的读数和小于7的质量得分，并修饰衔接子，最终覆盖度值为11、14、27和58x。从15x读取集中生成了一个额外的子集，其中删除了所有大于15 kbp的读取，导致7x覆盖和9kbp的N50。我们为Fast算法生成了相似的数据集用于读取。

装配精度随着覆盖深度的增加而迅速提高。对于HAC + mod数据集，除7x覆盖子集外，所有读取子集均导致单个循环重叠群，且所有读取均超过15 kbp（补充表2）。组装时间随覆盖深度线性增加（图2A）；但是，装配精度随着58x覆盖率读取集的非线性得分的提高而达到了Q值30.4，而最高覆盖率数据集的32.0为Q评分（图2B）。

图2

图2.装配统计与覆盖深度。（A）组装时间与基因组覆盖深度的关系。（B）组装精度与覆盖深度的关系。

快速算法还为大多数数据集生成了单个圆形重叠群。例外情况是最坏的情况（6x覆盖率，所有读取的长度均超过15 kbp）被删除，导致了24个重叠群，而数据集的9x覆盖率和N50为22k，导致了2个重叠群。与HAC + mod算法相似，装配精度在66x覆盖率下的Q得分为23.9，而在260x则为24.3（图2B），非线性地增加。对于这两种算法，SNP和InDel的下降都遵循相同的非线性趋势（补充图1A，B）。根据这些结果，对于约5 Mbp的基因组大小，装配体在80x覆盖范围内的装配精度达到了99％，而装配时间为56分钟。

组装中的错误影响了Prokka识别的编码DNA序列（CDS）的数量。的大肠杆菌K -12 MG1655参考基因组注释包含4305个CDS，88的tRNA和rRNA的22。HAC + mod组件的带批注的CDS数量比参考文献多4％至83％（补充表2）。CDS数量的增加与装配精度线性相关，可以用作装配质量的代表（图3）。尽管HAC + mod和Fast算法之间的相关性相同（确定系数= 0.98），但由于最大装配精度的差异，两种算法之间的斜率也不同。

图3

图3.装配精度与注释的编码DNA序列数的关系。

MinION大会的基因组规模代谢重建。

我们使用Prokka注释的输出为Fast和HAC + mod算法的三个代表性程序集建立了基因组规模的代谢网络重建（GEM）。我们利用了最近发布的模型构建协议，该协议可基于参考模型生成重建模型（Norsigian等，2020b）。我们添加了一个额外的步骤，该步骤试图重组由于测序错误而分裂成多个蛋白质序列的CDS。这种基于同源性的校正导致分裂CDS的大量恢复。对于快速碱基检出算法，将76–84％的裂解CDS重组为单个蛋白质序列（表3）。对于HAC + mod算法，此范围从82％到96％不等，具有最高覆盖率的程序集实现了4312个推定的CDS，而参考E. coli K -12 MG1655参考基因组则为4305个。我们还利用了过程中的一个可选步骤，即针对参考基因组草案查询参考基因组中每个CDS的核苷酸序列。可以使用此步骤来恢复由于顺序错误而在草稿注释中丢失的开放阅读框。表3中显示了恢复的开放阅读框的摘要。

表3

表3.从组装和注释管道构建的基因组规模代谢重建的统计数据。

使用最新的大肠杆菌K -12 MG1655 GEM（即ML1515）作为参考模型，我们基于校正后的草图集注释和参考基因组之间的同源性搜索生成了GEM。即使对于最低精度的组件，生成的模型也令人惊讶地完整（表3）。经过仿真后，所有模型，甚至是Fast basecalling算法中精度最低的组件，都可以预测与参考模型相同的增长率。所有代谢反应均存在于模型中，但最低准确度的HAC + mod装配除外，它缺少2,712个反应中的2个。所有模型都包含参考模型中超过99％的基因。对于所有六个型号和i ML1515，在298种可能的碳源上的预测增长能力均相同（补充图2）。

病原菌的组装和重建

在验证了大肠杆菌K -12上的模型生成管道后，我们将该方法应用于表征病原菌的临床分离株。临床分离株包括在纽约州瓦尔哈拉的韦斯特切斯特医学中心从患有骨髓炎继发性菌血症的患者中分离出的医院获得的MRSA菌株。在鲍曼不动杆菌菌株从骨髓炎患者在圣迭戈，加利福尼亚，美国孤立于2017年。的屎肠球菌菌株是从在埃及开罗患者分离。这些分离物提供了管道的实际应用，因为可以通过与参考模型进行比较分析来鉴定抗生素抗性基因。此外，存在高质量的基因组规模代谢重建鲍曼不动杆菌AYE菌株（Norsigian等人，2018）和金黄色葡萄球菌USA300菌株（Seif等人，2019），可以用作参考重建。目前尚无粪肠球菌的代谢重建。因此，我们与自动化重建管道相比，使用我们的管道评估了粪肠球菌重建草稿的完整性[CarveMe（Machado et al。，2018）。使用我们的管道对解复用后的样本进行基础调用，组装和注释，其摘要如表4所示。为所有三个细菌基因组产生了环状重叠群。另外，回收了鲍曼不动杆菌的质粒和屎肠球菌。

表4

表4.本研究中表征的病原菌临床分离株的装配统计。

金黄色葡萄球菌临床分离株

将金黄色葡萄球菌分离物读数组装成单个圆形重叠群，从而产生接近完整的基因组规模模型。基因组的总体覆盖率约为75倍，根据在大肠杆菌中的验证，预计将导致近乎完整的组装。我们使用来自两个高精度算法的读数生成了程序集，无论是否考虑到A和C碱基（分别为HAC-mod和HAC + mod）的甲基化。HAC-mod组件产生的平均ORF更少，平均长度更长（表4）。与大肠杆菌中的结果相比，碎片化ORF的减少表明，HAC-mod算法比HAC + mod算法可产生更准确的组装（表1）。

临床分离株的基因组规模模型草案与参考模型几乎相同。使用管道的拆分ORF重组步骤，将预测的ORF数量在HAC-mod组件中减少了58个，在HAC + mod中减少了145个；再次表明HAC-mod算法由于较少的分割ORF而更加准确。对于这两种算法，通过针对装配的参考核苷酸序列的同源性搜索，仅回收了一个ORF。该分离物的代谢重建草案临床包括的851个基因和1448升的反应相比，866个基因和1455个反应在参考模型中我YS854。在这7个缺失反应中，没有一个是必不可少的，并且由策展模型在策展之前预测的增长率与参考模型的增长率相同。对于HAC-mod和HAC + mod组件，草稿重构是相同的。因此，我们仅策划了HAC-mod衍生的草案。

模型构建流程可在参考菌株和临床分离株中提供独特内容的注释。使用这些注释，我们迅速将临床分离株重建草案整理成一个完整的模型。临床分离株在USA300菌株中具有181种蛋白，但没有明确的同源性（图4），其中57种与Swissprot数据库的蛋白具有同源性。从这57种蛋白质中，确定16种与参照蛋白质同源，但低于80％PID截止值。因此，我们针对独特的新陈代谢和抗生素抗性或毒性内容，整理了临床分离物中41种蛋白质的最终清单。对参考菌株USA300 TCH1516的类似分析导致临床分离物中的447种蛋白没有同源性（图4）。在这477种蛋白质中，有100种与Swissprot蛋白质同源，并且经过手动处理，我们鉴定出67种具有已知功能的蛋白质，与临床分离株相比，该蛋白质对于参考而言是独特的。

图4

图4的比较金黄色葡萄球菌USA300 TCH1516相对于金黄色葡萄球菌基于基因组尺度代谢重建管道的输出临床分离物。

USA300 TCH1516和临床分离株的代谢能力几乎相同。我们首先评估了参考中存在的模型草案中缺少的反应。对于7个缺失反应中的5个，我们确定了低于临界值的同源性评分，从而导致反应从草稿重构中删除。但是，在针对Swissprot数据库同源性搜索手动整理这些蛋白质后，我们将反应添加回了临床分离株的草稿中。最后缺失的反应是参考菌株中的其他肽聚糖生物合成途径。在临床分离物中，该替代途径缺失或有所不同，其从草稿重建中的省略是有效的。参考菌株基因组中唯一的独特功能是推定的砷酸还原酶和三类特征性差的ATP依赖性转运蛋白，与阳离子摄取蛋白的同源性低。在临床分离物中没有发现独特的代谢能力。最终的临床分离株重建，我SA854isolate（补充材料），包括了854个基因，1453个反应和1335种代谢物（图4）。

参考菌株和临床分离株之间在抗生素抗性能力，宿主毒性机制和抗菌肽生物合成方面存在差异（图4）。在参考菌株USA300 TCH1516中存在的甲氧西林抗性基因中，临床分离物中仅缺少跨膜β-内酰胺传感器MecR1（Peacock和Paterson，2015年）。临床分离基因组编码了可能的MacB外排转运蛋白（Kobayashi等，2001），赋予了对大环内酯类药物如红霉素的抗性（Lin等，2009）。趋化抑制蛋白，负责逃避宿主免疫系统（de Haas等人，2004年）和能够溶解宿主细胞的可溶于酚的调节素（Cheung等，2014），在临床分离物中不存在。虽然参考菌株和临床分离株基因组均编码葡萄球菌肠毒素A，D和E，但临床分离株也编码了肠毒素C，G和H. 临床分离物中没有已知的羊毛硫抗生素生物合成途径。但是，对羊毛硫抗生素出口商进行了注释。应当指出的是，这种分析是基于基因组比较分析，而不是模型模拟的直接输出，因为这些机制中有许多不在GEM的范围内。但是，通过管道简化了基因组比较，因为只有非冗余内容才需要人工干预和注释。

鲍曼不动杆菌临床分离株

的鲍曼不动杆菌菌株读段尽管大约13×的整体基因组覆盖组装成一个环状基因组和一个线性质粒。我们使用来自两个高精度算法的读数生成了程序集，无论是否考虑到A和G碱基（分别为HAC-mod和HAC + mod）的甲基化。同样，HAC-mod程序集产生的平均ORF更少，平均长度更长（表4），因此比HAC + mod算法更精确的程序集。

临床分离株的基因组规模模型草案的代谢成分与参考模型不同。管道的分开的ORF重组步骤在HAC-mod装配中将预测的ORF数量减少了326，这表明基因组覆盖率低，并且产生的准确性导致大量移码。通过针对装配体对参考核苷酸序列进行同源搜索，回收了五个ORF。临床分离株代谢重建草案由675个基因和1,007个反应组成，而参考模型i CN718中为709个基因和1,015个反应。在8个缺失的反应中，一个是必不可少的。荚膜多糖（CPS）生物合成酶UDP- N-乙酰基-D-葡糖胺差向异构酶（模型反应UAG4E）。从CPS生物质反应中除去该反应的产物UDP- N-乙酰基-D-半乳糖胺后，草案模型能够模拟生长。该观察结果以及不存在另一种CPS生物合成酶UDP- N-乙酰基-D-甘露糖胺氧化还原酶（模型反应UACMAMO）表明，这两个物种之间的CPS有所不同，这在随后的手动管理阶段很明显。

的鲍曼不动杆菌的临床分离物具有700种蛋白质，而不在AYE参考菌株（明确同源图5），其中244具有同源性的蛋白质的Swissprot可数据库。从这244种蛋白质中，确定83种与参照蛋白质同源，但低于80％PID截止值。因此，我们挑选出了161种蛋白质的最终列表，这些蛋白质具有独特的代谢和抗生素抗性或毒性。对参考菌株AYE的倒数分析在临床分离物中产生558种无同源性的蛋白质（图5）。在这558种蛋白质中，有267种与Swissprot蛋白质同源，并且通过手动管理，我们鉴定出179种具有已知功能的蛋白质，与临床分离株相比，该蛋白质对于参考而言是独特的。

图5

图5.根据基因组规模的代谢重建流程的输出，将鲍曼不动杆菌AYE与鲍曼不动杆菌临床分离株进行比较。

我们首先评估了参考中存在的模型草案中缺少的其余反应。手动管理非CPS缺失反应提示这些功能确实在临床隔离株中不存在。这些包括乙酰乳酸脱羧酶，脯氨酸消旋酶，脲基甲酸酯水解酶，ABC型组氨酸/阳离子氨基酸导入剂和编码肌酸酰胺水解酶的质粒。此外，临床分离物中不存在DNA修饰酶胞嘧啶5-甲基转移酶（模型反应CYTOM）。参考菌株AYE基因组中的独特功能包括用于砷和汞的重金属外排泵，以及除上述基因外的与CPS生物合成有关的几个基因。

相比之下，临床分离物中还标注了其他几种代谢功能。分离物中存在草酸盐和半乳糖酸盐，腐胺和没食子酸盐的降解途径（图5）。这些途径已经存在于BiGG模型数据库（Norsigian等，2020c）中，包括大肠杆菌[ i ML1515（Monk等，2017）]，枯草芽孢杆菌[ i YO844（Oh等，2007）]模型。 ]和恶臭假单胞菌[ i JN1462，（Nogales等人，2020年）]。这样，这个新的模型内容就可以轻松地转移到草案草稿中，并通过临床分离的ORF（补充材料）来更新基因反应关联。尽管临床分离株和参考菌株均包含I型二氢蝶呤合酶，但临床分离株也编码该酶的II型版本。磺胺类抗生素可快速抑制I型，而II型可赋予此类抗生素耐药性（Rådström等，1991）。

临床分离物中的CPS生物合成基因座表明存在伪氨基酸。临床分离株CPS基因座的遗传组织与含有K2胶囊的伪胺酸高度相似（Kenyon等，2014）。然而，假设K2胶囊使用N-乙酰基-半乳糖胺作为起始糖（Kenyon等，2014）。如上所述，临床分离株缺少生物合成N的UDP- N-乙酰基-D-葡萄糖胺差向异构酶-乙酰半乳糖胺。因此，用于临床分离物的起始CPS糖是未知的。伪氨基酸的生物合成途径不在BiGG模型数据库中。因此，我们手动策划了重新构建草案的途径。临床分离株中标注了一种新的代谢能力，但未添加到草稿重建中。注释了与铁载体介导的铁摄取具有非常低同源性的基因簇。低同源性注释阻止了将内容添加到模型；但是，该途径对于参考菌株和临床分离株中都存在的铁吸收系统是多余的。最后，策划临床分离株重构，我AB710isolate（补充材料），由710个基因，1,032个反应和918个代谢物组成（图5）。

鲍曼不动杆菌参考菌株和临床分离株之间的抗生素抗药性和抗菌毒素存在差异（图5）。参考AYE菌株特有的抗生素耐药性的遗传证据包括卡那霉素，四环素，庆大霉素，氯霉素和小的多药耐药性。为ABC转运蛋白编码的临床分离基因组，其起头孢哌酮外排泵的作用（Yamanaka等，2016）。此外，在临床分离物中，有证据表明氨基糖苷乙酰基转移酶可使氨基糖苷分子乙酰化，从而赋予对含有紫嘌呤胺环的抗生素的抗性（Nobuta等，1988）。）。对于抗微生物毒素，临床分离基因组包括接触依赖性生长抑制系统CdiA（Willett等人，2015），该系统不存在于参考基因组中。外排泵和氨基糖苷乙酰基转移酶是GEM的研究范围，如果与抗生素摄取动力学模型结合使用，可以模拟AMR机制。但是，CdiA机制超出了GEM的范围，并且以上分析基于基因组比较。

粪肠球菌的草稿重建

我们试图使用管道的修改版来生成粪肠球菌（E. faecium）的代谢模型草案。由于该物种不存在参考模型，因此我们调整了模型构建流程，以使用BiGG模型数据库（Norsigian等，2020c）中的邻近生物作为参考。如预期的那样，系统生物学分析表明，粪肠球菌菌株与BiGG数据库中的其他Firmicutes聚集在一起（补充图3）。在这种情况下，我们还选择了一种“类型菌株”，即屎肠球菌。应变DO（NCBI：NC_017960.1），用于执行管道的ORF恢复步骤。另外，此版本的管道使用e值阈值（1 e -10）代替PID来建立与参考物种的同源性。由于系统发育的缘故，我们使用三种Firmicute GEM产生了粪肠球菌的代谢重建草稿，由于模型的大小和质量，我们使用大肠杆菌作为参考物种（表5）。

表5

表5.使用不同参考基因组规模的重建的粪肠球菌临床分离株的代谢重建草案。

粪肠球菌的重建均未创建完整的模型。重建的大小从319个到448个基因不等（表5）。但是，每次重建也都包含其他参考物种衍生的模型草案中没有的独特内容。整个非冗余草稿重构由626个基因，1,045个反应和1,050个代谢物组成（补充材料）。该组合模型无法模拟生长，可能是由于缺乏物种特异性的生物质反应。与参考物种没有同源性的ORF的数量随着与粪肠球菌的系统进化距离的增加而增加（表5））。但是，这与模型大小不相关，因为最亲缘距离最远的物种大肠埃希菌导致第二大模型。

我们将管道中的结果与自动重建工具CarveMe的结果进行了比较（Machado等人，2018）。CarveMe使用基于较旧版本的BiGG数据库的通用模型，该模型在概念上类似于但比我们上面使用的多个参考模型更全面。然后，CarveMe基于线性编程（MILP）方法删除模型内容。与CarveMe通用模型蛋白质数据库对齐的带注释的粪肠球菌蛋白质序列表明708个唯一匹配项的e值超过1 e的阈值-10，类似于我们626个基因的组合模型大小。CarveMe GEM包含471个基因，1,045个反应和784个代谢产物。尽管此模型比我们的组合模型小，但它能够模拟化学丰富的培养基上的生长（所有交换反应均已打开），而我们的组合模型则没有。粪肠球菌装配中的同源蛋白质数量（708）和最终的CarveMe模型基因计数（471）之间的差异表明，MILP“雕刻”过程去除了可能包含在粪肠球菌中的代谢成分重建。由于CarveMe方法是自上而下的模型构建工具，因此在某种程度上是可以预期的。两种模型都有独特的内容。CarveMe模型中的471个基因中，有106个缺失。同时，我们的组合模型包含CarveMe模型中不存在的261个基因。这些结果表明，两条管道的重建都需要手动管理。

模拟基因组

由于对微生物群落的原位分析是MinION测序平台的一项重要功能，因此，我们评估了将整个测序过程作为模拟元基因组处理后得到的装配的质量。在模拟的元基因组中存在六种独立的样品制备或与之前运行的残留物，包括三株大肠杆菌，最小和最丰富样品之间的读数计数存在数量级差异（补充表3）。从金黄色葡萄球菌，鲍曼不动杆菌和粪肠球菌的元基因组中回收了一个单一的圆形重叠群，其长度与分离的读段的组装长度相似（表6）。从HAC-mod读数和元基因组得到的基因组的比较分别导致鲍曼不动杆菌，粪肠球菌和金黄色葡萄球菌的Q值分别为29.4、34.2和43.6 （相似或更好的为99.88％）。伸长的聚球菌PCC 7942的片段重叠群（经评估是从同一MinION流通池上的先前测序运行中残留），未超过分箱和注释的覆盖范围（10倍）。读取的亚株大肠杆菌CFT073构成的总数的11％，但读出只有3％的测序核苷酸的（补充表3），并且不超过为合并的覆盖截止。令人惊讶的是，大肠杆菌O157：H7被片段化，其主要染色体的覆盖范围高度可变（14-22x）。该样品与高于截留阈值的其他装配体形成鲜明对比，表明在gDNA提取或文库构建过程中存在问题。尽管如此，组装片段的大小仍与该大肠杆菌菌株的规范大小相似（表6），基于i ML1515的草图重建（未针对新内容进行整理）能够解决生长问题（补充数据集）。

表6

表6. MinION模拟元基因组装配的装配统计信息。

由于鲍曼不动杆菌与环状基因组的相似性最低，因此我们在该基因组的衍生基因组衍生装配上运行了模型重建流程。源自元基因组的程序集包含5,019个带注释的ORF，其平均ORF长度为659 bp，而HAC-mod程序集则为5,376个ORF和622 bp。该结果表明，该基因组的装配质量比多路分解的装配更高，这可能是由于覆盖率略高（表6）。）。从元基因组派生的程序集和HAC-mod程序集重建的草稿与675个基因和1,007个反应相同，两次草稿重建中都缺少相同的8个参考模型反应。该结果表明，可以用源自基因组的程序集建立近乎完整的基因组规模的代谢重建。

讨论区

总体而言，组装和模型构建流程的结果表明，可以直接从基于MinION的组装中直接生成准确的基因组规模的代谢重建。该管道为所有覆盖深度和装配精度提供了> 99％的完整大肠杆菌模型。组装精度随着覆盖深度的增加而迅速提高，而组装所需的时间则随着覆盖深度的增加而线性增加（图2A，B）。这些数据表明，大约80倍的覆盖率目标可在组装精度和所需时间之间取得平衡。在此值下，对于大约5 Mbp的基因组，装配体将在其最大精度的1％以内，并且流水线可在不到一小时的时间内在笔记本电脑上完成。尽管Fast basecaller导致准确性低，易于出错的程序集，但由这些读取导致的重构仍大于99％完成。这可能是由于以下事实：网络重建仅需要二进制存在/不存在评估，以便对模型添加反应。综上所述，该数据表明GEM准确性等于基因组组装准确性。当MinION装配体达到超过99％的共识精度时，所得的GEM也会达到此完成水平。应当指出，由于计算算法和硬件的进步，装配质量和速度继续提高。例如，我们验证了笔记本电脑的补充数据集示例管线处理示例，该笔记本电脑配备了Intel i7-9750 45W处理器，32 GB RAM和RTX2060 GPU。与177分钟（Guppy v。3.6.1与3.2.2，移动RTX2060与台式机GTX1070）相比，对大肠杆菌数据的高精度碱基检出花费了90分钟，而对40×HAC大肠杆菌数据集的组装花费了12分钟。而i7-8650U处理器则为28分钟。

组装流水线导致金黄色葡萄球菌，鲍曼不动杆菌和粪肠球菌临床分离株的圆形重叠群。覆盖深度与整体基因组准确性和分裂的ORF数量之间的关系与大肠杆菌的验证结果一致。尽管覆盖了13倍，但完整的鲍曼不动杆菌基因组的恢复尤为令人鼓舞。此外，管道回收了鲍曼不动杆菌和粪肠球菌的质粒，这是一项重要功能，因为质粒通常包含赋予AMR的基因（Buckner等人，2018）。

将测序运行视为元基因组不会降低所得装配的质量。实际上，我们对鲍曼不动杆菌的研究结果表明，由于缺乏条形码（不包含条形码，大约占11％，补充表3），并入了从多路分解后的样品中剔除的读数，从而提高了装配质量。该结果表明有望对简单的微生物群落进行快速原位表征，这在文献中是有先例的（Castro-Wallace等人，2017年; Arumugam等人，2019年; Sevim等人，2019年）。大肠杆菌的碎片性质模拟宏基因组中的O157：H7基因组在其他物种的质量装配中脱颖而出。我们假设在同一个基因组中存在三种不同的大肠杆菌菌株可能会影响装配质量。但是，多路分解后的条形码读取的组合产生了相似的结果（补充表4）。因此，该问题是读取数据所固有的，并且存在多个相似的应变不会影响组装质量。金黄色葡萄球菌代谢能力之间的一致性临床分离株和参考菌株USA300 TCH1315直接从管道中获得了可解决的，接近完整的基因组规模模型。流水线的成对比较输出还能够快速评估推定的AMR功能（图4）。观察到的差异（例如临床分离物中存在公认的MacB外排泵）可以帮助选择治疗方案，或用于将疾病表现和临床结果与基因组含量相关联。这些观察是基于比较基因组学，而不是模型模拟的结果。

鲍曼不动杆菌临床分离株的代谢能力不同于参考AYE菌株（图5）。其他分解代谢途径（尤其是没食子酸酯）的存在可洞悉病原体的潜在来源和环境背景。对临床分离株的系统生物学分析鉴定出与黄瓜根际分离的鲍氏不动杆菌XL380菌株最为相似（NCBI登录号CP046536.1，补充图4）。由于没食子酸酯是植物的代谢产物，因此临床分离株也可能源于植物的根际。此外，管道还生成了有关临床分离株荚膜多糖（CPS）的足够详细信息，以使其与K2荚膜相关联（Kenyon et al。，2014），同时推断该菌株中的起始糖有所不同。幽门螺杆菌的多糖中存在伪胺酸与毒力增加相关（Kao等人，2016），再次证明了这项研究中使用的管道在鉴定可告知疾病进展和可能的临床结果的代谢成分方面具有价值。

手动将其他内容整理到鲍曼不动杆菌临床隔离株中，突出显示了潜在的瓶颈。自动化步骤的确可以快速识别新菌株与其相应参考之间的保守含量，从而突出显示可能需要大量人工干预的菌株。尽管如此，GEM的功能还是来自于模拟代谢表型的能力。这就要求将新内容添加到计算机重建中。对于BiGG模型数据库中已经存在的内容，此步骤很简单，只需几分钟即可完成（补充材料）。但是，将伪氨基酸生物合成途径手动引入模型中确实对快速模拟代谢能力构成了障碍。手动管理此路径及其随后添加到模型的时间投入约为几个小时。解决这一挑战的方法是扩大全基因组规模的重建数量。全景基因组是给定物种中所有独特内容的纲要（Norsigian等，2020a）。例如，鲍曼不动杆菌的全基因组因为含K2 CPS的物种已经包含在全基因组中，因此它已经包含了伪氨基酸的生物合成途径。泛基因组规模的重建需要大量的前期工作，因为它们需要管理数千种基因。尽管如此，这些重建确实存在于BiGG数据库中（Seif等人，2018）。泛基因组规模的重建将对实施即时点测序和AMR病原体的代谢特征做出重要贡献。

在尝试重建粪肠球菌代谢网络方面，我们方法的主要局限性显而易见。缺乏粪肠球菌参考菌株导致所有重建大约完成了50％。使用系统发育方法选择最合适的参考菌株似乎可以使粪肠球菌中与该参考菌株蛋白质缺乏同源性的蛋白质序列数量降至最低（表5））。但是，它并没有增加最终重建的完整性。该观察结果突出了我们方法的主要缺点：参考模型的质量被投影到新的重构中。结合多个参考模型可以实现更完整的重建，并反映了CarveMe方法的方法（Machado等人，2018年）。尽管如此，CarveMe衍生的模型并未包括粪肠球菌基因组中编码的所有代谢成分。在此方法执行的模型简化或“雕刻”步骤中，此内容可能已经丢失。此外，CarveMe使用的通用模型基于BiGG数据库的旧版本，该版本缺少两个相关的GEM：用于金黄色葡萄球菌的i YS854乳酸乳球菌的USA300 TCH1315和i NF514 ，它们都是屎肠球菌的系统发育邻居（补充图2）。对CarveMe通用模型的更新可能会导致更完整的重建。对于我们的管道产生的草稿，必须进行手动策展才能生成完整的重建图。

我们研究的主要目的是评估源自MinION组件的GEM的质量。从结果大肠杆菌组件和重建建议使用附庸组件从我们的管道将概括高精度从头开始建立一个创业板的大肠杆菌模型，我ML1515。仍然需要注意的重要一点是，我们无法通过正交，高精度测序技术评估临床分离基因组和由此产生的GEM作为组装体的准确性，也没有可用于进行GEM模拟验证的生理数据。这些约束在严峻的环境中也可能是正确的。因此，虽然MinION衍生的大肠杆菌GEM和金黄色葡萄球菌和鲍曼不动杆菌临床分离株GEM的生长速度模拟表明重建接近完成，重要的是要强调缺乏广泛的准确性和验证指标。

展望未来，很明显两个增长领域将提高GEM在现场即时病原体测序和表征中的适用性。首先，直接模拟GEM中的AMR机制将能够定量评估抗生素耐药性的代谢成本，这是重要的下一步。同时，重要的是要注意某些AMR机制在代谢建模中是不可行的，包括本研究中确定的一些。对于那些机制，与比较基因组学相比，代谢建模没有任何好处。尽管如此，这项研究的结果仍然表明，MinION衍生的程序集对于这些类型的分析具有足够的质量。

另一个挑战是需要手动管理新菌株的独特含量。全自动管道（例如modelSEED）牺牲了一些表型预测准确性（Machado等人，2018）。我们的管道和CarveMe方法都是基于参考的重建方法。我们的流水线使用单一参考模型，而CarveMe利用整个BiGG模型数据库，这是一个高质量的，人工管理的基因组规模重建的存储库（Norsigian等，2020c）。尽管如此，数据库的微生物（古细菌和原核生物）模型的内容还是偏向于γ-变形杆菌，占了数据库中80％以上的重建（图6）。）。第二个最丰富的门是大约8％的Firmicutes。在我们的分析中使用的54种细菌和古细菌门中，基因组规模的代谢重建不到15％（8/54门）。此外，正如我们在粪肠球菌中的研究结果所示，仅仅处于同一个门不会导致完整的GEM，自动重建工具（例如CarveMe）也无法完全弥合物种之间的鸿沟。因此，需要在整个系统发育树中大量扩展人工固化的GEM。我们的组装和草图模型构建流水线可以通过最大限度地减少手动策划的唯一内容的数量来促进此扩展。

图6

图6. BiGG模型数据库中基因组规模模型的系统生物学分析。

数据可用性声明

可以在补充材料中找到为此研究生成的数据集。可以在SBRG Github（https://github.com/SBRG/MinIONtoModels/releases）上找到补充材料中发现的大肠杆菌MinION的一部分子集以运行装配管线（覆盖28倍）。大肠杆菌K-12 MG1655 BOP27（300x覆盖）和鲍曼不动杆菌，金黄色葡萄球菌和屎肠球菌的纳米孔基因组组装体临床分离株（HAC-mod，多路分离）可在国家生物技术信息生物工程数据库中找到，编号为PRJNA672694，生物样品登录号SAMN16574824，SAMN16574825，SAMN16574826，SAMN16574827。