生物信息学的研究重点主要体现在基因组学和蛋白质学两方面,也即从核酸和蛋白质序列出发,分析序列中表达结构和功能的生物信息。生物信息学的基本任务就是对各种生物序列进行分析,研究出新的计算机算法,从大量的序列信息中获取基因结构、功能和进化等知识。
近年来,随着 生物基因组测序技术的不断发展,测得的DNA序列数据也飞速增长,这促进了生物信息学领域相关研究方向的深入开展。在生物基因组测序技术中,第一代测序技术是在人类基因组计划中 得到了推广应用的Sanger测序技术,由于存在测序 覆盖率低、 测序周期长和 费用昂贵等方面的不足,Sanger测序技术已经逐渐被淘汰。随之而来的是第二代测序技术的诞生, 第二代测序 技术也被称为下一代测序技术(Next Generation Sequencing Technology,NGS)。第二代测序技术的出现是测序技术领域的一次革命性改进,其特点包括:序列数据高通量、高覆盖率,但测得的DNA序列片段(read)长度很短,适合于大规模高通量的序列数据处理。第二代测序 技术的 出现为基因组 研究领域提供了广阔的发展前景和丰富的数据支持,很多基因组研究领域的遗留难题因此有了新的解决途径,这也带动了整个生物信息学领域的产业化发展。
在第二代测序技术产生的短序列片段数据 仍是各个科研小组的 主要研究数据时,第三代测序技术已经开始崭露头角。当前的第三代测序技术主要有两种,即由美国太平洋 生物科学公司(Pacific Bioscience, PacBio)推出的单分子实时测序技术 (Single-Molecule Real-Timesequencing technology,SMRT)和由英国牛津纳米公司推出的纳米孔测序技术(Nanopore sequencing)。这两种测序技术一出现,便引起了生物信息学领域众多科研人员的广泛关注。第三代测序技术的特点是测得的DNA序列片段长度 非常长,其平均长度能达到10000bp, 但同时以现有的技术测得 的序列数据却具有较高的错误率,乃至高达15%左右。尽管如此 ,这种长测序片段(long read)对于特定 的基因组学问题仍然 具有 非常重要的意义。目前随着第三代测序技术的不断发展以及基因组拼接方法的不断成熟,生物信息学领域产生了越来越多的基因组长序列片段数据。这些基因组长序列 数据对于生物信息学领域的许多问题都具有非常重要的研究价值
可以预见的是,随着第三代测序技术的不断发展成熟,测序数据一定会朝着片段更长、错误率更低的方向发展。再加上越来越成熟的基因组拼接技术,我们将会得到越来越多的基因组长序列片段数据,而如何利用好这些序列数据,对生物信息学领域的相关研究具有极为重要的意义
这两年多来的研究生求学生涯,首先,我要感谢我的导师谢**教授对我的指导,指引我如何进行科学研究,完成了从学习知识到自主研究的进步,这是我们研究生阶段最重要的收获。其次,我要感谢我的家人对我学业的支持,使我能没有后顾之忧地利用好研究生阶段的时间,全心投入到对新的知识的学习和研究中。最后,我要感谢我身边的同学,大家一起学习、生活,共同成长、进步,营造了一个良好的学习氛围。