生物信息学,
一、名词解释:
1、生物信息学:生物分子信息的获取、存贮、分析和利用;以数学为基础,应用计算机技术,研究生物学数据的科学。
2、相似性(similarity):两个序列(核酸、蛋白质)间的相关性。
3、同源性(homology):生物进化过程中源于同一祖先的分支之间的关系。
4、同一性(identity):两个序列(核酸、蛋白质)间未发生变异序列的关系。
5、序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。
6、生物数据库检索(database query,数据库查询):对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。
7、生物数据库搜索(database search):通过特定序列相似性比对算法,找出核酸或蛋白质序列数据库中与待检序列具有一定程度相似性的序列。
二、简答题:
1、分子生物学的三大核心数据库是什么?它们各有何特点?
GenBank核酸序列数据库;SWISS-PROT蛋白质序列数据库;PDB生物大分子结构数据库;
2、简述生物信息学的发生和发展。
20世纪50年代,生物信息学开始孕育;
20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来;
20世纪70年代,生物信息学的真正开端;
20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析方;
20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库;
20世纪90年代后,HGP促进生物信息学的迅速发展。
3、生物信息学的主要方法和技术是什么?
数学统计方法;动态规划方法;机器学习与模式识别技术;数据库技术及数据挖掘;人工神经网络技术;专家系统;分子模型化技术;量子力学和分子力学计算;生物分子的计算机模拟;因特网(Internet)技术
4、常见的DNA测序方法有哪些?各有何技术特点和优缺点?
Maxam-Gilbert DNA化学降解法:
优点:可测完全未知序列及CG富含区;
缺点:操作繁琐;
Sanger双脱氧链终止法:
优点:简便,可测较长片段;
缺点:需已知部分序列或加接头;
焦磷酸测序:
优点:廉价、高通量;
缺点:一次测序片段短。
5、分子生物学数据库有哪些类型?各有何特点?
基因组数据库:基因组测序
核酸序列数据库:核酸序列测定
一次数据库:蛋白质序列数据库:蛋白质序列测定。生物大分子(蛋白质)三维结构数据库:X-衍射和核磁共振
特点:数量少,容量大,更新快
二次数据库:上述四类数据库和文献资料为基础构建
特点:数量多,容量小,更新慢
6、简述NCBI Entrez系统的功能。
高级检索系统;查找核酸、蛋白、文献、结构、基因组序列、大分子三维结构、突变数据、探针序列、单核苷酸多态性等数据。
7、简述NCBI BLAST的功能和种类。
序列相似性比对工具;
对核酸:普通blastn,对高度相似序列megablast;
对蛋白质:普通blastp,对保守域rpsblast;
对人工翻译序列:核酸翻译序列对蛋白质序列blastx,蛋白质对翻译序列tblastn,核酸翻译序列对翻译序列tblastx;
其它:基因组blast,基因表达序列搜索GEO blast,序列两两比对……
三、论述题:
1、什么是生物信息学?生物信息学有哪些主要应用领域?
生物分子信息的获取、存贮、分析和利用;以数学为基础,应用计算机技术,研究生物学数据的科学。
生物分子数据的收集与管理;数据库搜索及序列比较;基因组序列分析;基因表达数据的分析与处理;蛋白质结构预测。
2、生物信息学在医药领域有什么应用?
辅助诊断(遗传病,HLA分型);
研究药物作用机制,辅助新药物开发和制造。
3、人类基因组计划中主要使用的那些生物信息学手段?它们对人类基因组计划发挥了哪些重大作用?
单一测序结果判读;contig和chromosome拼接;识别基因区及其调控区;寻找基因相互作用的时空关系;
4、试述蛋白质二级结构预测的主要策略和方法。
策略:
目标:判断每一段中心的残基是否处于a螺旋、b折叠、b转角(或其它状态)之一的二级结构态,即三态。
a、理论分析法(从头计算法):通过理论计算(分子力学、分子动力学等)进行结构预测。
优点:不需要经验数据,由一级结构推测高级结构
缺点:天然和未折叠蛋白间能级差很小 (kcal/mol);蛋白质可能的构想空间庞大,针对蛋白质折叠的计算量巨大;计算模型中力场参数不准确。
b、统计方法:对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型,进而根据映射模型对未知结构的蛋白质直接从氨基酸预测结构。
c经验性方法:根据一定序列形成一定结构的倾向进行结构预测。通过对已知结构的蛋白质进行统计分析,发现各种氨基酸形成不同二级结构的倾向,从而形成一系列关于二级结构预测的规律。
d结构规律提取方法:从蛋白质结构数据库中提取关于蛋白质结构形成的一般性规律,指导建立未知结构的蛋白质模型。
e同源模型化方法:通过同源序列分析或模式匹配,预测蛋白质的空间结构或结
构单元。
方法:
1、Chou-Fasman方法;(基于单个氨基酸残基统计的经验参数方法,由Chou 和Fasman在20世纪70年代提出来。通过统计分析,获得每个残基出现于特定二级结
构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。)
2 GOR方法;(是一种基于信息论和贝叶斯统计学的方法GOR将蛋白质序列当作一连串的信息值来处理;GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响,而且考虑相邻残基种类对该位置构象的影响)
3、基于氨基酸疏水性的方法;4、最邻近方法;5、人工神经网络方法;6、综合方法:7、利用进化信息预测蛋白质的二级结构。
1. 生物信息学:
1)生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科;
2)它综合运用了数学、计算机学和生物学的各种工具来进行研究;
3)目的在于阐明大量生物学数据所包含的生物学意义。
2. BLAST(Basic Local Alignment Search Tool)
直译:基本局部排比搜索工具
意译:基于局部序列排比的常用数据库搜索工具
含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库
3. PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST和FASTA的相似序列发现率。
4. 一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特定位置最常见的残基之外,它们不能表示任何概率信息。
5. HMM 隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合来生成一组序列排列。(课件定义)是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。
6. 信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。
7. 非信息位点:对于最大简约法来说没有意义的点。
8. 标度树:分支长度与相邻节点对的差异程度成正比的树。
9. 非标度树:只表示亲缘关系无差异程度信息。
10. 有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯一的路径历经进化到达其他任何节点。
11. 无根树:只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种,可以在无根树中指派根节点。
12. 注释:指从原始序列数据中获得有用的生物学信息。这主要是指在基因组DNA中寻找基因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。
13. 聚类分析:一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。
14. 无监督分析法:这种方法没有内建的分类标准,组的数目和类型只决定于所使用的算法和数据本身的分析方法。
15. 有监督分析法:这种方法引入某些形式的分类系统,从而将表达模式分配到一个或多个预定义的类目中。
16. 微阵列芯片:将探针有规律地排列固定于载体上,与标记荧光分子的样品进行杂交,通过扫描仪扫描对荧光信号的强度进行检测,从而迅速得出所要的信息。
17. 虚拟消化:是基于已知蛋白序列和切断酶的特异性的情况下进行的理论酶切(课件定义)。是在已知蛋白质序列和蛋白外切酶之类切断试剂的已知特异性的基础上, 由计算机进行的一种理论上的蛋白裂解反应。
18. 质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法,从而使分子质量的准确确定成为可能。
质谱分析的两个工具
19. 分子途径是指一组连续起作用以达到共同目标的蛋白质。
20. 虚拟细胞:一种建模手段,把细胞定义为许多结构,分子,反应和物质流的集合体。
21. 先导化合物:是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。就是利用计算机在含有大量化合物三维结构的数据库中,搜索能与生物大分子靶点匹配的化合物,或者搜索能与结合药效团相符的化合物,又称原型物,简称先导物,是通过各种途径或方法得到的具有生物活性的化学结构
22. 权重矩阵(序列轮廓):它们表示完全结构域序列,多序列联配中每个位点的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法(课件定义)。基础上针对特定的应用目标而建立的数据库。
23. 系统发育学(phylogenetic):确定生物体间进化关系的科学分支。
24. 系统生物学(systems biology):是研究一个生物系统中所有组分成分(基因、mRNA、蛋白质等)的构成以及在特定条件下这些组分间的相互关系,并分析生物系统在一定时间内的动力学过程
25. 蛋白质组(proteome):是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。
26. ESI电喷雾离子化:一种适合大分子如蛋白质离子化没有明显降解的质谱技术。
二.填空题
1. 常用的三种序列格式:NBRF/PIR,FASTA和GDE
2. 初级序列数据库:GenBank,EMBL和DDBJ
3. 蛋白质序列数据库:SWISS-PROT和TrEMBL
4. 提供蛋白质功能注释信息的数据库:KEGG(京都基因和基因组百科全书)和PIR(蛋白质信息资源)
5. 目前由NCBI维护的大型文献资源是PubMed
6. 数据库常用的数据检索工具:Entrez,SRS,DBGET
7. 常用的序列搜索方法:FASTA和BLAST
8. 高分值局部联配的BLAST参数是HSPs(高分值片段对),E(期望值)
9. 多序列联配的常用软件:Clustal
10. 蛋白质结构域家族的数据库有:Pfam,SMART
11. 系统发育学的研究方法有:表现型分类法,遗传分类法和进化分类法
12. 系统发育树的构建方法: 距离矩阵法,最大简约法和最大似然法
13. 常用系统发育分析软件:PHYLIP
14. 检测系统发育树可靠性的技术:bootstrapping和Jack-knifing
15. 原核生物和真核生物基因组中的注释所涉及的问题是不同的
16. 检测原核生物ORF的程序:NCBI ORF finder
17. 测试基因预测程序正确预测基因的能力的项目是GASP(基因预测评估项目)
18. 二级结构的三种状态:α螺旋,β折叠和β转角
19. 用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层,隐含层和输出层
20. 通过比较建模预测蛋白质结构的软件有SWISS-PDBVIEWER(SWISS—MODEL网站)
21. 蛋白质质谱数据搜索工具:SEQUEST
22. 分子途径最广泛数据库:KEGG
23. 聚类分析方法,分为有监督学习方法,无监督学习方法
24. 质谱的两个数据库搜索工具:SEQEST和Lutkefish
三.问答题
1. FASTA序列格式
第一行以“>”开头但并没有指明是蛋白质还是核酸序列。后跟代码,接着是注释(在同一行),通常注释要以“|”符号相隔,第一行没有长度限制。值得注意的是FASTA文件允许以小写字母表示氨基酸。文件扩展名为“.fasta”。
(NBIR/PIR序列格式
第一行以“>”开头,后面紧跟两字母编码(P1代表蛋白质序列,N1代表核酸),再接一个分号,分号后紧跟序列标识号。后面是说明行,该行可长可短,没有长度限制。接下来是序列本身,以“*”号终止。文件的扩展名为“.pir”或“.seq”。
GDE序列格式
与FASTA的格式基本相同,但行首为“%”,文件扩展名为“.gde”。)
2. BLAST的五个子程序
程序 | 查询序列 | 数据库种类 | 简述 | 方法 |
Blastp | 蛋白质 | 蛋白质 | 可以找到具有远源进化关系的匹配序列 | 待搜索蛋白序列与蛋白数据库比较 |
Blastn | 核苷酸 | 核苷酸 | 适合寻找分值较高的匹配,不适合远源关系 | 待搜索核酸序列与核酸数据库比较 |
Blastx | 核苷酸 (已翻译) | 蛋白质 | 适合新DNA序列和EST序列的分析 | 将待搜索核酸序列按6个读框翻译成蛋白质序列,然后与数据库中的蛋白质比较 |
TBlastn | 蛋白质 | 核苷酸 (已翻译) | 适合寻找数据库中尚未标注的编码区 | 将数据库中核酸序列按6个读框翻译成蛋白序列,然后与待搜索蛋白序列对比 |
TBlastx | 核苷酸 (已翻译) | 核苷酸 (已翻译) | 适合分析EST序列 | 无论是待搜索核酸序列还是数据库中核酸序列,都按6个读框翻译成蛋白序列 |
3. 生物类的数据库类别:
一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释;
二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
4. PSI-Blast的原理:
PSI-BLAST是一种将双序列比对和多序列比对结合在一起的数据库搜索方法。其主要思想是通过多次迭代找出最佳结果。每次迭代都发现一些中间序列,用于在接下去的迭代中寻找查询序列的更多疏远相关序列(拓展了序列进化关系的覆盖面积)。
具体做法是最初对查询序列进行BLAST搜索,接着把查找得到的每一击中项作为BLAST搜索第二次迭代的查询序列,重复这个过程直到找不到有意义的相似序列为止。
(以下为研究生课件部分)
PSI-BLAST的基本思路在于根据最初的搜索结果,依照预先定义的相似性阈值将序列分成不同的组,构建一个位点特异性的序列谱,并通过多次迭代不断改进这一序列谱以提高搜索的灵敏度。
利用第一次搜索结果构建位置特异性分数矩阵,并用于第二次的搜索,第二次搜索结果用于第三次搜索,依此类推,直到找出最佳搜索结果。此外,BLAST不仅可用于检测序列对数据库的搜索,还可用于两个序列之间的比对。
5. 多序列联配的意义:
1)分析多个序列的一致序列;2)用于进化分析,是用系统发育方法构建进化树的初始步骤;3)寻找个体间单核苷酸多态性;4)通过序列比对发现直亲同源与旁系同源基因;5)寻找同源基因(相似的序列往往具有同源性);6)寻找蛋白家族识别多个序列的保守区域;7)相似的蛋白序列往往具有相似的结构与功能;8)辅助预测新序列的二级或三级结构;9)可以直观地看到基因的哪些区域对突变敏感;10)PCR引物设计。
6. 系统发育学的研究方法:
1)表现型分类法:将表型相像的物种归类在一起,所有特征都要被考虑到;
2)遗传分类法:具有共有起源的物种归类在一起,也就是说,这些字符并没有出现在离它们较远的祖先序列;
3)进化分类法:该方法综合了表现型分类法和遗传分类法的原理,进化方法被普遍认为是最好的系统发育分析方法,因为该方法承认并采用目前的进化理论;
7. 系统发育树的构建方法:
1)距离矩阵法:首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推到得出分类群之间的进化距离,构建一个进化距离矩阵,其次基于这个矩阵中的进化距离关系构建进化树;
2)最大简约法:该法依据在任何位置将一条序列转变成另一条序列所需要突变的最少数量对序列进行比较和聚类;
3)最大似然法:该模型可将一个给定替代发生在序列中任何位置的概率融合进算法,该方法计算序列中每个位置的一个给定序列变化的可能性,最可靠的树为总的可能性最大的那棵。
8. 简述人工神经网络预测蛋白质二级结构的基本步骤。
1)输入数据(来自PDB)
2)产生一个神经网络(一个计算程序)
3)用已知的蛋白质二级结构来训练这个模型
4)由训练好的模型来给出未知蛋白的一个可能的结构
5)最后从生物角度来检验预测的一系列氨基酸是否合理
9. 预测蛋白质三级结构的三种方法
1)同源建模法:依据蛋白质与已知结构蛋白比对信息构建3D模型;
2)折叠识别法:寻找与未知蛋白最合适的模板,进行序列与结构比对,最终建立结构模型;
3)从头预测法:根据序列本身从头预测蛋白质结构。
10. 分子途径和网络的特点:
1)分子途径和网络的结构随意性大。图可以很简单,也可以非常复杂。它们可能包含了多个分支,盘绕的连接和回路。
2)它们通常也显示出节点间关系的方向,例如表示出代谢通路或信号传导的方向。调控途径和网络的图也应该说明相互作用是正的还是负的。正的相互作用(促进或者活化作用)常常用箭头表示,而负的交互效应(抑制或者失活作用)常常用T型棒表示。
11. 先导化合物的来源有四种来源:
1)通过偶然性观察发现的先导化合物(这个方法最著名的例子就是亚历山大.弗莱明发现的青霉素,今天所用的许多抗生素皆由其发展出来)
2)也可以通过替代疗法的药物开发中发现的药物副作用来识别先导化合物(例如,镇定剂氯化物丙嫀是在试验中发现用在抗组胺剂时被发现的)
3)先导化合物也可以来自传统医药学(如奎宁化合物就来自金鸡纳的树皮)
4)先导化合物也可以来自天然的底物或是配体(比如说,肾上腺素作为舒喘宁的类似物用来治疗哮喘)
12. 简述DNA计算机的基本原理:
1)以编码生命信息的遗传物质—DNA序列,作为信息编码的载体,利用DNA分子的双螺旋结构和碱基互补配对的性质,将所要处理的问题映射为特定的DNA分子;
2)在生物酶的作用下,通过可控的生化反应生成问题的解空间;最后利用各种现代分子生物技术如聚合酶链反应RCR、超声波降解、亲和层析、分子纯化、电泳、磁珠分离等手段破获运算结果。
DNA计算机优点:低能耗、存储容量高、运算速度快,可真正实现并行工作。
13. 简述DNA计算实现方式中,表面方式与试管方式相比具有哪些优点?
试管方式:就是在一个或多个试管的溶液里进行生化反应;
表面方式:是将对应的解空间的DNA分子固定在一块固体上,其次进行各种生化反应,或是在表面逐步形成解空间,然后根据具体问题对所有可能的解进行筛选,最后得到运算结果。
(1)操作简单,易于实现自动化操作;
(2)减少人为操作过程中造成的DNA分子的丢失及其它操作失误;
(3)减少分子在表面上的相互作用,同时增强分子间的特异性结合;
(4)信息储存密度大,据估计,10毫克DNA表面上的储存密度是传统计算姬的10的8次方倍,而在溶液中仅为10的5次方倍;
(5)结果易于纯化。
14. 简述PCR引物设计的基本原则及其注意要点
原则:首先引物与模板的序列要紧密互补,其次引物与引物之间避免形成稳定的二聚体或发夹结构,再次引物不能再模板的非等位点引发DNA聚合反应(即错配)。
注意要点:1、引物的长度一般为15-30bp,常用的是18-27bp,但不应大于38,因为过长会导致其延伸温度大于74℃,不适合于TaqDNA聚合酶进行反应。
2、引物序列在模板内应当没有相似性较高,尤其是3’端相似性较高的序列,否则容易导致错配。引物3’端出现3个以上的连续碱基,如GGG或CCC,也会使错误引发几率增加。
3、引物3’端的末位碱基对Taq酶的DNA合成效率有较大的影响。不同的末位碱基在错配位置导致不同的扩增效率,末位碱基为A的错配效率明显高于其他3个碱基,因此应当避免在引物的3’端使用碱基。另外,引物二聚体或发夹结构也可能导致PCR反应失败。5’端序列对PCR影响不太大,因此常用来引进修饰位点或标记物。
4、引物序列的GC含量一般为40-60%,过高或过低都不利于引发反应。上下游引物的GC含量不能相差太大。
5、引物所对应模板位置序列的Tm值在72℃左右可使复性条件最佳。Tm值的计算有很多种方法,如按公式Tm=4(G+C)+2(A+T),在Oligo软件中使用的是最邻近法(thenearestneighbormethod)。
6、G值是指DNA双链形成所需的自由能,该值反映了双链结构内部碱基对的相对稳定性。应当选用3’端G值较低(绝对值不超过9),而在5’端和中间G值相对较高的引物。引物的3’端的G值过高,容易在错配位点形成双链结构并引发DNA聚合反应。
7、引物二聚体及发夹结构的能值过高(超过4.5kcal/mol)易导致产生引物二聚体带,并且降低引物有效浓度而使PCR反应不能正常进行。
8、对引物的修饰一般是在5’端增加酶切位点,应根据下一步实验中要插入PCR产物的载体的相应序列而确定。
15. 假设你得到一段未知基因的DNA序列,从你学习到的生物信息学分析方法和软件,设计一个分析流程来分析该未知基因的功能和家族类别(包括系统发育树构建)
1、得到未知基因的DNA序列,用Blast做序列比对,找出与其基因相似的核苷酸序列和蛋白质序列。
2、接着,用搜索出来的较相似的序列用ClustW进行多序列比对,得到该序列的保守情况和突变情况。
3、最后用距离法构建系统发育树。
16. 假设你得到一段未知蛋白的氨基酸序列,从你学习到的生物信息学分析方法和软件,设计一个分析流程来分析该未知蛋白的功能和家族类别以及其结构预测。
1、用该序列进行BLASTP搜索。
2、再对其进行蛋白质结构域、功能域的搜索,可以用Znterproscan、Pfam,并对其进行结构分析。
3、再用ClustW进行多序列比对。
4、用人工神经网络的方法对其结构进行结构预测。
17. BLAST中,E值和P值分别是什么,它们有什么意义?
答:BLAST中使用的统计值有概率p值和期望e值。
E期望值(E-value)这个数值表示你仅仅因为随机性造成获得这一比对结果的可能次数。这一数值越接近零,发生这一事件的可能性越小。从搜索的角度看,E值越小,比对结果越显著。默认值为10,表示比对结果中将有10个匹配序列是由随机产生,如果比对的统计显著性值(E值)小于该值(10),则该比对结果将被检出,换句话说,比较低的E值将使搜索的匹配要求更严格,结果报告中随机产生的匹配序列减少。
p值表示比对结果得到的分数值的可信度。一般说来,p值越接近于零,则比对结果的可信度越大;相反,p值越大,则比对结果来自随机匹配的可能性越大。
18. 什么是序列比对中使用的PAM矩阵和BLOSUM矩阵,它们的作用是什么,一般BLAST选择使用的矩阵是什么
答:PAM矩阵和BLOSUM矩阵都是用于序列相似性的记分矩阵(scoring matrix)。记分矩阵中含有对齐时具体使用的数值。一般FASTA和BLAST都提供BLOSUM或PAM系列矩阵供选择,若要进行突变性质的进化分析时可以使用PAM,FASTA缺省推荐BLOSUM50矩阵。
PAM矩阵(Point Accepted Mutation)基于进化的点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。一个PAM就是一个进化的变异单位, 即1%的氨基酸改变,但这并不意味100次PAM后,每个氨基酸都发生变化,因为其中一些位置可能会经过多次突变,甚至可能会变回到原来的氨基酸。
模块替换矩阵BLOSUM(BLOcks Substitution Matrix)首先寻找氨基酸模式,即有意义的一段氨基酸片断(如一个结构域及其相邻的两小段氨基酸序列),分别比较相同的氨基酸模式之间氨基酸的保守性(某种氨基酸对另一种氨基酸的取代数据),然后,以所有 60%保守性的氨基酸模式之间的比较数据为根据,产生BLOSUM60;以所有80%保守性的氨基酸模式之间的比较数据为根据,产生BLOSUM80。
19. 为什么蛋白质空间结构预测很重要,目前有哪几条途径用于从蛋白质的氨基酸序列预测其空间三维结构?
答:蛋白质空间结构的预测很重要。研究蛋白质结构,有助于了解蛋白质如何行使其生物功能,认识蛋白质与蛋白质(或其它分子)之间的相互作用,通过分析蛋白质的结构,确认功能单位或者结构域,可以为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的依据,同时为新的药物分子设计提供合理的靶分子结构。
目前有三条途径用于从蛋白质一级序列预测其空间三维结构:
A、同源建模法。是蛋白质三维结构预测的主要方法。对于一个未知结构的蛋白质,首先通过序列同源分析找到一个已知结构的同源蛋白质,然后,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型。前提是必须要有一个已知结构的同源蛋白质。
B、穿针引线法。需建立核心折叠数据库,在预测蛋白质空间结构时将一个待预测结构的蛋白质序列与数据库中核心折叠进行比对,找出比对结果最好的核心折叠,作为构造待预测蛋白质结构模型的根据。
C、从头开始法。在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,直接根据序列本身来预测其结构。该方法先对蛋白质及溶剂作近似处理,再建立能量函数,通过对构象空间进行快速搜索找到与某一全局最小能量相对应的构象。
生物信息学的应用:
1(商业)生物信息学市场规模:
生物医药信息市场
药物基因组学数据收集和分析
生物芯片数据收集和分析
2基因组分析(基础科学研究的需要)
基因组测序,拼接
基因的分离
基因组的结构
基因的序列到功能
比较基因组学研究
蛋白质的结构与功能
分子进化研究
3更多的应用(与人类生活密切相关)
新药物设计
基因芯片疾病快速诊断
流行病学研究
人类基因组计划
寄生虫基因组计划:基因芯片
一、 名词解释
1. GenBank:是美国全国卫生研究所维护的基因序列数据库,汇集并注释了所有公开的核酸序列,与日本的DNA数据库DDBJ以及欧洲分子实验室核酸序列数据库EMBL一起,都是国际核苷酸序列数据库合作的成员。
2. EMBL:EMBL实验室—欧洲分子生物学实验室,EMBL数据库—是非盈利性学术组织EMBL建立的综合性数据库,EMBL核酸数据库是欧洲最重要的核酸序列数据库,它定期地与美国的GenBank、日本的DDBJ数据库中的数据进行交换,并同步更新。
3. DDBJ:日本DNA数据库,主要向研究者收集DNA序列信息并赋予其数据存取号,信息来源主要是日本的研究机构,也接受其他国家呈递的序列。
4. BLAST:基本局部比对搜索工具的缩写,是一种序列类似性检索工具。BLAST采用统计学几分系统,同时采用局部比对算法, BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。
5. BLASTn:是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
6. BLASTp:是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
7. Clustsl X:是CLUSTAL多重序列比对程序的Windows版本,是用来对核酸与蛋白序列进行多序列比较的程序,也可以对来自不同物种的功能或结构相似的序列进行比对和聚类,通过重建系统发生树判断亲缘关系,并对序列在生物进化过程中的保守性进行估计。
8. Entrez:是由NCBI主持的一个数据库检索系统,它包括核酸,蛋白以及Medline文摘数据库,在这三个数据库中建立了非常完善的联系。因此,可以从一个DNA序列查询到蛋白产物以及相关文献,而且,每个条目均有一个类邻(neighboring)信息,给出与查询条目接近的信息。
9. SRS(sequence retrieval system):序列查询系统,是EBI提供的多数据库查询工具之一。有与Entrez类似的功能外,还提供了一系列的序列分析工具,可以直接进行在线序列分析处理。
10. SWLSS—MODE:是目前最著名的蛋白质三级结构预测服务器,建立在已知生物大分子结构基础上,利用同源建模的方法对未知序列的蛋白质三级结构进行预测。
11. homology modeling:是目前最为成功且实用的蛋白质结构预测方法,它的前提是已知一个或多个同源蛋白质的结构。当两个蛋白质的序列同源性高于35%,一般情况下认为他们的三维结构基本相同。
12. Ab initio prediction:蛋白质三级结构预测方法—从头预测法,在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,只能采用从头预测方法,即(直接)仅仅根据序列本身来预测其结构。
13. molecular phylogenetic tree:分子进化树,精确地反映物种间或群体间在进化过程中发生的极微细的遗传变异,而且借助化石提供的大分子类群的分化年代能定量地估计出物种间或群体间的分化年代。
14. gene tree:基因树,表示一组基因或一组DNA顺序进化关系的系统发生树。
15. neighbor—joining method:邻接法,基于最小进化原理经常被使用的一种算法,它不检验所有可能的拓扑结构,能同时给出拓扑结构和分支长度。在重建系统发生树时,认为在进化分子上,发生趋异的次数可以不同,它是最有效的的基于距离数据重建系统树的方法之一。
16. maximum parsimony method:最大简约法基于进化过程中所需核苷酸(或氨基酸)替代数目最少的假说,对所有可能正确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树。
17. MEGA(Molecular Evolutionary Genetics Analysis):是一款免费的构树软件,它提供了序列比对、格式转换、数据修订、距离计算、系统树重建和可信度评估等全套功能,能对DNA、mRNA氨基酸序列及遗传距离进行系统发生分析以及基因分化年代的分析。
18. BioEdit:BioEdit是一个序列编辑器与分析工具软件。功能包括:序列编辑、外挂分析程序、RNA分析、寻找特征序列、支持超过20000个序列的多序列文件、基本序列处理功能、质粒图绘制等等。
19. EST:表达序列标签—是从一个随机选择的cDNA 克隆,进行5’端和3’端单一次测序挑选出来获得的短的cDNA 部分序列,代表一个完整基因的一小部分
20. GSS:基因组勘测序列,是基因组DNA克隆的一次性部分测序得到的序列。包括随机的基因组勘测序列、cosmid/BAC/YAC末端序列、通过Exon trapped获得基因组序列、通过Alu PCR获得的序列、以及转座子标记(序列等。
21. ORF:核酸序列的开放阅读框,一个ORF就是一个潜在的蛋白质编码区。
22. promoter:启动子,是RNA聚合酶识别、结合并开始转录所必需的一段DNA序列。
23. 3’UTR:3’非翻译区的缩写,真核生物的转录终止信号是在3’非翻译区的polyA。
24. CpG island:是DNA上的一个区域,富含GC,两者以磷酸酯键相连,长度约几百到几千bp不等,常出现在管家基因或频繁表达的基因的启动子附近,在这些部位,CpG岛具有阻止序列甲基化的作用。
25. coiled coil:卷曲螺旋,是蛋白质中由2~7条α螺旋链相互缠绕形成类似麻花状结构的总称。卷曲螺旋是控制蛋白质寡聚化的元件,在机体内执行着分子识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。
26. heptad repeat:七肽重复区是典型的卷曲螺旋结构类型之一,由多个七肽单元连接而成的重复序列。
27. structure domain:结构域,是在蛋白质三级结构中介于二级和三级结构之间的可以明显区分但又相对独立的折叠单元,每个结构域自身形成紧实的三维结构,可以独立存在或折叠,但结构域与结构域之间关系较为松散。
28. motif:又称模体,实序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。通常由2、3个二级结构单位组成,一般为α螺旋、β折叠和环。motif作为结构域中的亚单位,表现结构域的各种生物学功能。
29. linux operating system:linux操作系统,Linux是一类Unix计算机操作系统的统称。Linux操作系统也是自由软件和开放源代码发展中最著名的例子。
30. BioPerl:是Perl语言专门用于生物信息学、基因组学及其他生命科学领域的工具与函数模块集。
31. PubMed:是一个免费的生物医学文摘数据库,提供部分论文的摘要及指向全文的链接。作为 Entrez 资讯检索系统的一部分。
32. PDB(Protein Data Bank):PDB是目前最主要的收集生物大分子(蛋白质、核酸和糖)三维结构的数据库,允许用户用各种方式以及布尔逻辑组合(AND、OR和NOT)进行检索。
33. HGP(human genome project);人类基因组计划,1990年由美国能源部(DOE)和国立健康研究院(NIH)资助的一个研究计划。目的是:① 鉴定出人类的所有基因;② 确定构成人类基因组的约30亿个碱基对的序列;③ 将上述信息储存于专门的数据库中,并开发出相应的分析工具;④ 研究由此而产生的伦理、法律和社会问题并提出相应对策。
34. ncRNA:非编码RNA,是指没有编码蛋白质功能的所有RNA,它缺乏开放阅读框,常由编码蛋白质的基因反转录而来。
35. miRNA:是一类小的非编码单链RNA,由19~25个核苷酸构成,广泛存在于动植物中,调节着基因表达。
二、 简答题
1、 Why do biological scientists search DNA databases ?
DNA数据库集合所有已知核酸的核苷酸序列,单核苷酸多态性、结构、性质以及相关描述,包括它们的科学命名、来源物种分类名称、参考文献等信息的资料库。通过搜索DNA数据库,可以检索出人们已经得到的DNA信息,在这些信息中科学家可以找出与待查或正在研究的DNA的相关或相似DNA的信息。
2、 NCBI维护的核苷酸数据库由哪几部分组成的,其主要的内容是什么?
由三部分组成:表达序列标签序列、基因组测序序列、核心核苷酸序列。
3、 UniGene 数据库主要收集什么样的数据?
UniGene数据库称得上是一个实验性质的系统,它通过程序自动将GenBank中的基因序列划分到某个非冗余的基于基因的集合中。这样,每个UniGene集合就代表了一个独特的基因,并包含了与这个基因相关的信息。
4、 GEO数据库主要收集的是什么样的数据?
基因表达精选集(GEO)数据库存储的是一些准确的基因表达图谱数据和大规模的分子实验数据。
5、真核基因结构识别主要包含哪些内容?
(1)ORF识别及其可靠性验证:确定DNA序列的编码区
(2)启动子及转录因子结合位点分析:CAP序列、识别区、解旋区、转录起始位点
(3)重复序列分析:哺乳动物基因组中存在大量重复序列,由于重复序列的大量存在常会影响序列的正确分析,因此在对真核基因进行分析前,最好能把重复序列找出来,并从序列中屏蔽掉
(4)CpG island:可以为基因及其启动子的预测提供重要的线索
(5)3’UTR区:真核生物的转录终止信号是在3’UTR区
6、分子进化树的构建主要有哪些算法?
邻接法、最大简约法、最大似然法、贝叶斯法