基因测序的回顾与展望
自2005年人类基因组计划(Human Genome Project, HGP)完成以来,其成果已经应用在了基础科学、临床医疗等各个领域,而测序人类基因组的成本也从HGP时的58亿美元下降到了2014年的不足1000美元。这得益于技术的进步,二代测序技术的出现使得基因测序所需的成本与时间大大下降。
自从454公司开创先河发布第一种二代测序平台以来,Helicos、ABI的Solid、Illumina (Solexa) 等新二代测序平台不断涌现,虽然各种测序平台在原理上各有独到之处,但测序结果的都能归结几个主要指标:读长、成本、通量。
读长(read)指的是测序仪一个反应所能读取的核苷酸长度。读长以字节(bp)为单位,例如Hiseq平台最常用读长就是150bp,PE模式能达到300bp。而DNA是以染色体为单位存在的,染色体的长度以百万bp计,人类最小的Y染色体也有60MB。完整的基因图谱要靠无数短reads拼接组成,二代测序大部分时间都要花在拼接上。读长越长,拼接工作量就越小,拼接中出现的错误也越少,所以对读长这一指标的要求是越长越好。
第二个指标是成本,成本一般用每百万碱基花费价格(美元)衡量,比如使用Sanger法的第一代测序产生1MB测序数据要花 $2400,而第一种二代平台454需要 $10,现在用的最多的Illumina平台只需要 $0.05 ~ $0.15 。
最后一个指标是通量,通量这个词乍听起来有些抽象,其实通量可以类比成流量。流量=流速*横截面积。通量=测序速度*同时进行的测序反应数量。也就是说通量实际上是测序速度和同时测序量两个指标的综合,直接关系到完成数据量的多少。二代测序的另一个名字就是高通量测序(High-throughput sequencing),通量throughput的中文翻译还有吞吐量、产出量等,实际就是描述测序仪一次产生数据多少的能力,二代测序的最大优势也正是高通量,以一台双flow cell的Hiseq2500为例,一次运行27小时产出的数据量就多达60G,相当于20个人的完整基因组!
在成本和通量上,二代测序都可以说无可挑剔,但过短的读长却成了二代测序的硬伤。reads的大小只有几百bp,而整个基因组的数据量往往多达数G,怎么把这些不计其数的reads按顺序拼成一个完整的基因组于是成了新物种测序的核心问题。基因序列的复杂性使得reads无法直接拼成染色体,而只能拼成一个个长片段,这种长片段我们称为contig,然后我们再通过长片段建库双端测序等其他技术手段推测出contig的顺序,把contig连成scaffold,再通过Hi-c等手段一步步还原成染色体。测序仪产生数据往往只要几个星期甚至几天,但后续的数据拼接却长达几个月甚至几年,有些物种例如小麦甚至直到今天都没能拼出质量合格的基因组图谱!而即使是质量良好的基因组完成图,也会有大量没能确定序列的空缺(gap)。
如何解决这个问题呢?追求长度长的三代测序应运而生了,人们对基于纳米孔技术的三代测序一度报以极大的希望。但纳米孔技术的不成熟使得希望一再落空,最终向传统光学信号妥协的picbio率先发布了实用化的三代测序仪,平均读长达到了3000bp(3kb),而最高读长甚至达到了40000bp(40kb),但成本与通量均弱于Illumina二代平台,只有300MB。
对于二代测序和三代测序的特点有一个形象的比喻:二代测序是吃米饭,三代测序是吸面条。二代测序把基因组染色体打断成了无数小片段,同时对许多小片段测序,如同吃米饭一样一口就吃进去许多粒米。而三代测序则像是在吸长寿面一样,它不把长片段打碎,而是从长片段的一端像吃面条一样不把面条咬断一口气吸下去,直到吸到另一端把面吃完。 二代测序实现高通量的核心思想massively parallel(大规模平行测序)也正基于“吃米饭”的道理,通过把长片段打断成小片段,同时对小片段进行测序,实现快速大量的完成测序。通过小片段来实现高通量,这不幸使得通量与读长陷入了一个鱼和熊掌不能兼得的困境。
读长短带来的另一个问题是我们无法保证测序仪测到的片段包含了整个基因组,可能我们测到的序列都只来自于一个染色体呢?所以我们就只能多测,甚至达到基因组原本大小的数十倍,才有把握覆盖了整个基因组没有漏网之鱼,这也就是我们常说的覆盖度,而数据量和基因组大小相差的倍数则成为测序深度。用高深度来实现高覆盖度使得二代测序低成本高通量的优势在一定程度上也被抵消了。
二代测序“吃米饭”
三代测序“吃面条”
其实制约读长的因素还有许多,picbio三代测序的读长主要受制于酶活,而二代测序在Taq酶失活前就已经无法保证数据质量了,荧光标记物保留在DNA链上,随DNA链的延伸会产生三维空间阻力导致DNA链延长到一定程度后会出现错读,此外还有蔟生长不同步,长片段难以完成桥式PCR等问题。以前在实验室时来给我们讲解的Illumina工程师就曾表示X ten的读长设置的越短越好。
就我个人的观点来看,在纳米孔测序依然遥遥无期的今天,利用已经成熟的现有技术开发新测序平台不失为一个不错的选择。在不打断片段的情况下对长片段进行多段同时测序,兼具了二代测序与三代测序的优点。具体的技术分析可以看我之后文章的介绍