WeDiscover发起基因检测技术经典书籍共读活动,第一季共读李金明教授的《高通量测序技术》,今天解读第四章前两节关于生物信息学的发展,常用数据存储格式及分析软件。
随着高通量测序技术的快速发展,其已由实验室研究逐步应用于临床。高通量测序检测对临床患者的诊断、治疗及预后判断具有重要的指导意义。高通量测序检测流程可分为实验室操作(称为湿实验)和生物信息学分析(称为干实验)。高通量测序技术离不开生物信息学分析,同时,生物信息学的发展也促进了高通量测序技术在临床中的应用。随着各种新的生物信息学软件算法的开发,高通量测序检测在临床应用的准确性和应用范围也在不断增加。
生物信息学包含的范围很广,从早期以DNA序列分析和数据库的建立到现在的比较基因组学、功能基因组学、代谢网络分析、基因表达谱分析、蛋白质结构和功能分析及药物靶点筛选等都属于生物信息学的范畴。
以下主要分享生物信息学发展简史、主要研究内容、数据格式及常用分析软件。
01
生物信息学的发展
生物信息学是一门新兴的交叉学科。随着生物信息学的发展,目前主要围绕基因的功能研究领域进行,下文简称生信。生信与传统基因检测方法最大的不同之处就是其需要复杂的生信分析将大量原始序列信息转化为可靠的变异信息。
生信是一门以生物学、计算机科学、数学为主的多学科交叉的新兴学科,主要利用计算机科学和数学为研究手段对生命科学领域研究出来的大量实验数据进行获取、加工、存储、检索、比较、分析,从而达到更好地解释数据的目的。生信的出现极大推动了分子生物学的发展,在生物学、医学领域都有着十分广泛的应用。
1956年
在美国田纳西州特林堡(Gatlinburg)召开的“生物学中的信息理论讨论会”上, 首次产生了生物信息学的概念。20世纪60年代
生物化学技术的发展,产生了大量的生物分子序列数据,促使科学家应用计算机技术解决生物学问题,特别是与生物分子序列相关的问题。 在发现同源蛋白序列存在相似性后,出现了探究蛋白序列之间相似性的序列比对算法,通过序列比较确定序列的功能及序列分类关系成为序列分析的主要工作 。这一时期出现了一系列著名的序列比对算法,如FASTA,BLAST等。20世纪80年代后
出现了如核酸数据库GenBank,蛋白质数据库SWISS-PROT等一批 生物信息数据库 ,以及美国国立生物技术信息中心(NCBI),这些数据库的出现对生命科学研究产生了深远的影响。 这是生物信息学形成的早期阶段。20世纪90年代后
科学家们开始 大规模的基因组研究 。1986年,出现基因组学(genomics)概念,研究基因组的作图,测序和分析的科学。1990年,人类基因组计划(human genome project,HGP)启动,这个计划揭开了组成人体约3万个基因的30亿个碱基对的全序列。生物信息学在人类基因组研究计划中起了重要的推动作用,同时这也是在生物信息学形成和发展中具有决定性意义的事件。