链读测序(Linked-read sequencing)通过将相同的barcode与长DNA片段(10-100kb)的序列连接在一起,能够消除其中的一些错读,从而改进宏基因组组装。但目前还不清楚在使用链读测序时参数的选择对组装的质量的影响如何。
近日,香港浸会大学研究人员发表文章 "通过链读测序对宏基因组组装全面研究"。
模拟数据和模拟菌群中的分析结果表明,模拟数据(simulated data)中读取深度(C)与组装序列的长度呈正相关,但对组装序列的质量影响不大,模拟菌群的研究中读取深度(C) 对组装序列的质量以及被注释为基因组草图的bin的比例有轻微影响。
另一方面,宏基因组组装质量受CR(每个短读长片段的平均深度)和CF(由长DNA片段计算的基因组的平均物理深度)的影响。对于相同的读取深度,较深的CR 会产生更多的基因组草图,而较深的CF 会提高基因组草图的质量。
还发现μFL(未加权的DNA片段的平均长度)对组装有边际效应,而NF/P(每个分区的片段数)对局部组装涉及到的偏离目标读数(off-target reads)有影响,即较低的NF/P值会通过减少off-target序列的错读而有更好的组装效果。
总体而言,与Illumina的短读长相比,使用链读改善了组装中重叠群的N50,但与PacBio CCS的长读长相比则没有改善。
背 景
人体微生物群是一个复杂的系统,在生理活动和疾病中起着重要的作用。对微生物群中的微生物基因组进行测序可以帮助我们研究其功能。
然而,微生物基因组序列很难获得,微生物群中的绝大多数微生物不能被分离出来进行单个测序。目前的宏基因组项目中使用短读长测序对混合的微生物基因组进行测序。
这些结果在基因组组装过程中是有错读的,导致微生物基因组的完整性和重叠群的连续性结果不理想。长读长测序已经被用来尝试减轻这些问题,如Nicholls等人和Sevim等人的研究。特别是Moss等人的研究,其成果优化了纳米孔测序的长读长文库制备方案,并