1977年2月,FredrickSanger与他的同事发表了第一个生物体的完整基因组序列,即噬菌体phiX174的5375个核苷酸。从那之后,人们就清楚地意识到,随着科学家测出更多复杂物种,全基因组的研究将会变得繁琐冗长。幸好,发展中的基因组学很快就有了解决方案。仅仅4个月之后,加州库比提诺一家新成立的小公司就开始为电子发烧友们出售AppleII。科学家也迅速发现,这套相对划算的新计算系统是存储和分析基因数据的理想系统。
如今,分子生物学根本离不开计算机的帮助。当高度自动化的测序仪每天产生数百万兆字节的新数据时,研究人员仍然能够常规地搜寻巨大的在线数据库,寻找基因间的新联系。事实上,“生物信息学”这个全新的科学学科已悄然兴起,用于分类、研究不断增长的生物学新信息。
很多研究机构都建立了专门的计算中心,处理过多的数据。然而,近期生物信息学专家开始借用计算机行业的另一套策略,避免更多的花费,那就是云计算(或分布式计算)。基于云计算的系统不同于本地化的存储和分析数据,它将强度很大的工作程序化地按需分派到成百上千的远程服务器上。早期采用云计算基因组学的科研人员不得不自己编写软件,但现如今计算机专家和服务器公司开始设计更加人性化的界面,进一步推广这一技术
计算无极限
对于云计算,最显见的争论就是新测序数据的绝对量。“我们机构不大,每天能产生一百万兆字节。”纽约冷泉港实验室定量生物学助理教授MichaelSchatz说。这足以在仅仅两到三天内填满一台台式机的整个硬盘。
Schultz解释道,从全球来看,DNA测序仪每年能产生大约150亿兆(PB)字节的数据(这一数据仍在迅速增长);而1PB就是1000个TB。要想把150亿兆字节的数据刻录到大容量DVD中,刻出来的光盘摞起来能达到2.5英里高,而这仅仅是原始数据