文献
《Phylogenomics from low-coverage whole-genome sequencing》
文章简介
本文介绍了一种基于全基因组测序数据 ( whole-genome sequencing ,WGS ) 的系统发育推断的工作流程,该流程利用一系列计算高效的生物信息工具,通过低覆盖基因组数据 (low-coverage genome data) 进行快速的从头组装基因组 (de novo genome assembling) ,从中提取进行系统发育推断所需要的基本标记物 (BUSCO/UCEs) ,进而推断系统发生关系。流程分为数据收集、基因组组装、loci (BUSCO/UCEs) 提取、系统发育推断四个基本步骤。
在文章中,作者通过两个实证数据集对该流程进行了评估(dataset A:来自 Hexapoda,六足亚门 ;dataset B:来自Phthiraptera,虱毛目)。其中对 dataset A 分别提取了 BUSCO (Benchmarking Unibersal Single-Copy Orthologs) 和 UCE (Ultraconserved element) 作为系统发育标记物进行系统发育推断,对 dataset B只提取了BUSCO,得到的结果与实证数据的拓扑结构一致。接下来作者利用不同测序深度的数据进行了评估,结果表明该流程对低覆盖度(10x-20x ) 的数据适用,只是不同覆盖度下,拓扑结构的支持度有所不同。
该流程的优点在于其基于 WGS ,具有该方法的基本优点(对原始数据质量要求不高、对 loci 类型要求不高等),同时,由于该流程原始数据是低覆盖基因组数据,数据量较小,同时结合了一系列计算高效的生物信息工具,所以弥补了WGS 方法耗时耗资源 的缺点。
作者也提出了该流程存在的不足:1. 低覆盖数据会影响目标位点的提取,进而影响系统发育的准确性。 2. 该文章所用的实证数据皆来自昆虫的基因组,不完全具备代表性。
名词总结
WGS , whole-genome sequencing
BUSCO , Benchmarking Unibersal Single-Copy Orthologs
UCE , Ultraconserved element