生物信息学考试题
生物信息学bioinformatics
名词解释
Silicon cloning:利用公共数据库信息, 借助计算机软件分析, 推测目的基因的编码区序列, 辅助全长cDNA克隆的方法
BLAST:即基本局域联配搜索工具,Basic Local Alignment Search Tool,是一个局部比对搜索工具,用来确定一条查询序列和一个数据库的比对,最早的版本不引入间隙,但现在所用的版本已经允许比对中引入间隙。
Entrez :是由 NCBI 主持的一个数据库检索系统,它包 括核酸,蛋白以及 Medline 文摘数据库,在这三个数据库中建立了非常完善的联系。因此, 可以从一个 DNA 序列查询到蛋白产物以及相关文献,而且,每个条目均有一个类邻 (neighboring)信息,给出与查询条目接近的信息。 Entrez 中的数据库包括: Entrez 中核酸数据库为:GenBank, EMBL, DDBJ 蛋白质数据库为:Swiss-Prot, PIR, PFR, PDB
PSI-BLAST:是一种迭代的搜索方法,可以提高 BLAST 和 FASTA 的相似序列发现率。
ORF:开放阅读框(ORF)是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能 被终止子打断。编码一个蛋白质的外显子连接成为一个连续的 ORF。当一个新基因被识别, 其 DNA 序列被解读,人们仍旧无法搞清相应的蛋白序列是什么。这是因为在没有其它信息 的前提下,DNA 序列可以按六种框架阅读和翻译(每条链三种,对应三种不同的起始密码 子)ORF 识别包括检测这六个阅读框架并决定哪一个包含以启动子和终止子为界限的 DNA 。 序列而其内部不包含启动子或终止子, 符合这些条件的序列有可能对应一个真正的单一的基 因产物。 ORF 的识别是证明一个新的 DNA 序列为特定的蛋白质编码基因的部分或全部的先 决条件。
相似性 (similarity)/(identify):相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。
生物数据库检索(database query,数据库查询):对序列,结构以及各种二次数据库 中的注释信息进行关键词匹配查找.
生物数据库搜索(database search):通过特定序列相似性比对算法,找出核酸或蛋白 质序列数据库中与待检序列具有一定程度相似性的序列.
E 值:对某个已识别出的相似度值 S,E 值是分值大于等于 S 的期望频率,改值可以被 理解为期望随机得到等于 S 或大于 S 值的分值数目。
序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们 按照一定的规律排列.
同源性(homology):生物进化过程中源于同一祖先的分支之间的关系.
Refseq:美国国家生物信息技术中心(NCBI)提供了具有生物意义上的非冗余的基因和蛋白质序列的RefSeq参考序列数据库 。
3’UTR:3’非翻译区的缩写,真核生物的转录终止信号是在 3’非翻译区的 : polyA。
CpG island:是 DNA 上的一个区域,富含 GC,两者以磷酸酯键相连,长度 : 约几百到几千 bp 不等,常出现在管家基因或频繁表达的基因的启动子附近, 在这些部位,CpG 岛具有阻止序列甲基化的作用。
GSS:基因组勘测序列,是基因组 DNA 克隆的一次性部分测序得到的序 :cosmid/BAC/YAC 末端序列、 通过 Exon 列。包括随机的基因组勘测序列、 trapped 获得基因组序列、 通过 Alu PCR 获得的序列、以及转座子标记(序 列等。
EST:表达序列标签—是从一个随机选择的 cDNA 克隆,进行 5’端和 3’ 端单一次测序挑选出来获得的短的 cDNA 部分序列,代表一个完整基因 的一小部分.。
MEGA(Molecular Evolutionary Genetics Analysis):是一款免费的构树软件, : 它提供了序列比对、格式转换、数据修订、距离计算、系统树重建和可信度 mRNA 氨基酸序列及遗传距离进行系统发生分 评估等全套功能, 能对 DNA、 析以及基因分化年代的分析。
maximum parsimony method:最大简约法基于进化过程中所需核苷酸(或 氨基酸)替代数目最少的假说,对所有可能正确的拓扑结构进行计算并挑选 出所需替代数最小的拓扑结构作为最优系统树。
neighbor—joining method:邻接法,基于最小进化原理经常被使用的一种算 法,它不检验所有可能的拓扑结构,能同时给出拓扑结构和分支长度。在重 建系统发生树时,认为在进化分子上,发生趋异的次数可以不同,它是最有 效的的基于距离数据重建系统树的方法之一。
mo