【国科大——期末复习】生物信息学(陈润生)_期末考试答案(最终版)

2023-2024年考试原题试卷可以在《资源》中下载

说明:

  1. 考试题有10道简答题,全是下面的,一模一样,直接抄就行
  2. 计算的题都是整数
  3. 新加了一道非编码RNA的题,放在了最后

一、什么是生物信息学?你如何理解生物信息学的含义?

  1. Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation.它是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。
  2. 生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。
  3. 生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。
生物研究和生物信息学的重要性和实例:

人类基因组计划:生物信息学在人类基因组计划中扮演了关键角色。这一项目成功解析了人类基因组,帮助科学家识别数千个基因以及与各种疾病相关的遗传变异。

疫苗开发:生物研究在新兴病原体如COVID-19病毒的疫苗开发中起着关键作用。科学家通过研究病毒的生物学特性,例如其蛋白质结构和传播机制,能够设计疫苗,如mRNA疫苗,来防止病毒传播。

更多:

怎样从新测得的DNA序列中找到编码区?非编码区与编码区的差别是什么?非编码区有什么具体功能?RNAi现象对于细胞来说有着很重要的意义,包括基因表达的调控等等,那么都有哪些具体机制可以诱导正常细胞产生RNAi现象?SARS病毒的比较基因组研究;治疗SARS的RNAi设计;SARS蛋白的结构预测和模拟。

怎么理解:

生物信息学是把基因组DNA序列信息分析作为源头,找到基因组序列中代表蛋白质和RNA基因的编码区;同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言规律;在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白谱数据,从而认识代谢、发育、分化、进化的规律。

其还利用基因组中编码区信息进行蛋白空间结构模拟和蛋白功能预测,并将此类信息与生物体和生命过程的生理生化信息结合,阐明其分子机理,最终进行蛋白、核酸分子设计、药物设计、个体化医疗保健设计。

二、发现新基因的两种方法是什么?算法的本质是?

1、通过大规模基因测序,查找具有编码特征的序列。

       通过大规模基因测序得到完整序列的数据出发,然后理论上识别和预测在这个基础序列里面有哪些特定的序列段具有编码序列特征。实际上是通过基因组序列去找到具有编码序列特征的区域。

一般可分为:

(1)基于信号,如剪切位点、序列中的promoter与terminator

(2)基于组分,即基因家族、特殊序列间比较,complexity analysis,neutral network

其本质是: : 以一个序列片段为线索, 通过它和整个数据库的比较, 还原出全序列原貌。当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列。

2、通过EST序列(EST数据库),拼接组装。

        ESC系列( Expression Sequence Tag) 都是归属于编码序列的,无需去识别,你只需要把它组装就好。

国际上现已出现了几个基于EST的基因索引如UniGene,  Merck-Gene,  GenExpress-index

数据来源于大量的序列小片段,EST较短,故关键在正确拼接。方法有基因组序列比对、拼接、组装法等。经常采用SiClone策略:

主要步骤:构建数据库;将序列纯化格式标准化;从种子库中取序列和大库序列比对;延长种子序列,至不能再延长;放入contig库

三、利用核酸或蛋白序列数据进行生物进化研究有哪些计算步骤?在这一领域当前存在的重要困难是什么?有何解决途径?

1、计算步骤:

(1)序列相似性比较。可以找到和目标序列相似的序列,但无法确定序列间的同源关系。就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用分析有BLAST等;

(2)序列同源性分析。是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;

(3)构建系统进化树。一般单独一种方法是不够的,通常需要多种方法才能构建反映物种间进化关系的进化树。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。为完成这一工作已发展了多种软件包,例如PYLIP、MEGA等;

(4)稳定性检验(分支的确定)。只有稳定的分支才有意义,为了检验构建好的进化树的可靠性,通常构建过程要随机成百上千次,大概率(70%以上)出现的分支点才是可靠的,通用的方法使用 Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。

2、当前的主要困难

基因的横向迁移(LGT,Lateral gene transfer)现象。即进化程度不同的物种间存在着遗传信息基因的传递,如果拿迁移的基因做进化分析就会出错。

3、解决方法:

(1)maker去掉横向迁移的的gene;在所有序列中筛选出有垂直进化关系的序列数据集,如COG数据库;

(2)是用完整的基因组和蛋白质组比较:

A.以whole genome为单位,进行基因组水平上的比对

B.利用生物体的蛋白质组构建进化树

选取特征比对,不用长度的序列字符串进行比对后,对照其genome进行归一化

ORF对比,将all predicted ORF采用COG的分类规则进行分类,再构建进化树:进化树方法研究古生物时的问题:样品测序是在几千万年前被固定的,而对比库则是现存的,故两者时间差是无法避免的,所以必须采取方法使两者的时间差尽可能的缩短,可采用的方法有两种:

                1、建立与样品同时代的database;

                2、构建模型,使样品序列模拟进化。

四、

A.什么是 SNP? 为什么SNP的研究是重要的? 你能给出2到3个SNP 相关的 web sites吗?   
B.什么是系统生物学? 系统生物学对生物功能实现的理解有何本质变化?

A:

SNP定义:

SNP(single nucleotide polymorphisms)是指单核苷酸多态性,主要是指在基因组水平上由单个核苷酸的变异所引起的 DNA序列多态性,代表了基因组水平上遗传密码的变异,由于这种变异很多以单碱基突变的形式出现,因此称为单核苷酸多态性;它反映了不同个体间、正常与异常个体之间基因组上的差别,现在这个概念有所扩大,不限于一个核苷酸的差异。

重要性:

SNP研究是基因组领域理论成果走向应用的关键步骤,是联系基因型和表现型之间关系的桥梁。

SNP网站:

  1. NCBI SNP database:将这些数据进行整理,去掉冗余,使每个 SNP 都是唯一的。此时的SNP 被称为 reference SNP 或 refSNP
  2. The Human Genic Bi-Allelic Sequences Database(HGBASE):收录了人基因组中所有已知的序列变化,包括:SNPs、Indels、简单重复序列等。
  3. Database(ALFRED):它是人类群体等位基因频率数据库。
  4. Breast Cancer Mutation Data Base (BIC):它收录了与乳腺癌相关的基因突变和SNP

B

系统生物学定义

包含三个相互衔接的组成:

  1. 整合各个层次、各个元件的信息。整合从所有不同生物水平获得的信息——DNA信息、RNA信息、蛋白质信息、蛋白质相互作用信息、途径等等。
  2. 基于信息建立模型。利用这些信息编写数学模型,能够预测评估中的生物系统的结构
  3. 用模型去预测系统未来的发展。在特定种类的刺激或扰动下预测其性质。

本质变化

  1. 传统生物学是:序列→结构→功能,只考虑单个个体,单个 gene,单个蛋白质。系统生物学是:相互作用→网络→功能,除考虑单个个体,单个 gene,还考虑个体与个体之间的相互作用,把整个生命活动作为一个网络来考查它们的相互作用。
  2. 所以,系统生物学认为真正实现生物学功能的是一组相互作用形成网络的蛋白质集合,不仅考虑单个分子元件而且要考虑其相互作用,以相互作用的网络来研究其功能,基因组是网络中的一部分,只有通过相互作用的网络才能体现功能。

五、什么是contig和scaffold,L50和N50是什么

1. contig

A contig (from contiguous) is a set of overlapping DNA segments that together represent a consensus region of DNA.

重叠群(来自连续的)是一组重叠的、完整连续的DNA片断

2. scaffold

A scaffold is a portion of the genome sequence reconstructed from end-sequenced whole-genome shotgun clones. Scaffolds are composed of contigs and gaps.

支架是从末端测序的全基因组鸟枪克隆重建的基因组序列的一部分。脚手架由重叠部分和间隙组成。

3. N50

把contig或scaffold按照从大到小的顺序排列,长度达到基因组大小(所有contig或scaffold的长度)的50%时,那条contig/scaffold的长度,即为contig/scaffold N50. N50越大,说明基因组组装的质量越高。

4. L50

长度总和产生N50的contig/scaffold的数量。

六、大数据分析需要注意的问题

七、真阳性,真阴性,假阳性,假阴性,灵敏度,特异性

  1. 真阳性,真阴性,假阳性,假阴性

True Positive (真阳性, TP)被模型预测为正的正样本;可以称作判断为真的正确率

True Negative(真阴性, TN)被模型预测为负的负样本 ;可以称作判断为假的正确率

False Positive (假阳性, FP)被模型预测为正的负样本;可以称作误报率

False Negative(假阴性, FN)被模型预测为负的正样本;可以称作漏报率

灵敏度Sensitivity:

TPR = TP /TP + FN

正样本预测结果数 / 正样本实际数

特异性Specificity:

TNR = TN /TN + FP

负样本预测结果数 / 负样本实际数

八、【计算题】Nearest Neighbor Model for Watson-Crick Base Pairs

Watson-Crick 碱基对的最近邻模型,描述了 DNA 中碱基对之间的相互作用力和稳定性

Nearest Neighbor Model for Free Energy of a Sample Hairpin Loop

通过计算样品发夹环中碱基对的相互作用能量,可以评估该环状结构的稳定性和热力学特性

九、人类基因组相关概念(黄色的是上课说的考点)

1.genotype(基因型): thegenetic constitution of the organism.生物体的遗传构成。

2.phenotype(表型): thecomposite of an organism's observable characteristics or traits.生物体可观察到的特点或特征的总和。

3.Trait (性状):is adistinct variant of a phenotype characteristic of an organism that may beinherited, be environmentally determined or be a combination of the two.性状是生物的表型特征的不同变异,可能是遗传,环境决定或两者共同作用的结果。

4.Locus(基因座):achromosomal location.染色体的一个位置,基因在染色体上的位置。

5.Alleles(等位基因):refersto any one of two or more genes that may occur alternatively at a given site(locus) on a chromosome.一般指位于一对同源染色体的相同位置上、控制着相对性状的一对基因。

6.Mutation(突变):a changein the genetic material, usually rare and pathological.遗传物质的改变,通常是罕见的和致病的。

7.Polymorphism(多态性):a changein the genetic material, usually common and not pathological.遗传物质的改变,是个体之间正常的差异,但比较普遍,且不致病。

8.Homozygote (纯合子) :an organism with identical pair of alleles for a specific trait.同源染色体上相同位点等位基因相同的基因型个体。

9.Heterozygote (杂合子):an organism that has different alleles at a particular gene locus onhomologous chromosomes. 同源染色体上相同位点等位基因不同的基因型个体。

10.Hemizygote (半合子): an organism that has only one allele for a specific trait. 对一种特定的性状只有一个等位基因的基因型个体。

Males are hemizygous for most genes on the sexchromosomes.雄性在性染色体上的大多数基因是半合子的。

11.Dominant trait (显性性状): a traitthat shows in a heterozygote.在杂合子中显示的性状。

12.Recessive trait (隐性性状): a traitthat is hidden in a heterozygote.隐藏在杂合子中的性状。

13.karyotype(核型分析):Akaryotype is the number and appearance of chromosome in the nucleus of aneukaryotic cell.核型是指真核细胞细胞核中染色体的数目和出现情况。

14.Population Genetics(群体遗传学):Population genetics is the study of variation within populations ofindividuals, and the forces which shape it. This involves studying changes inthe frequencies of genetic variation in populations over space and time.群体遗传学是研究群体内个体的变异,以及形成变异的力量。这涉及到研究种群在空间和时间上遗传变异频率的变化。

15. Population(种群):Aninterbreeding group of the same species in a given geographical area. 同一物种在特定地理区域内的杂交群。

16.Population genetics (种群遗传学):The study of the genetics of a population and how the alleles vary withtime.对一个种群的遗传学以及等位基因如何随时间变化的研究。

17.Gene pool(基因库):Thecollection of all alleles in the members of the population. 种群成员中所有等位基因的集合。所以计算时每个个体的两个等位基因都要考虑在内。

18.Gene flow(基因流动):Movementof alleles between populations when people migrate and mate. 当种群迁移和交配时,等位基因在种群之间的移动。

19.Allele frequency(等位基因频率):特定等位基因/所有等位基因。每个个体的两条染色体都要考虑。【2*纯合子+杂合子】

20.Cohort(队列):a groupof people who share a common characteristic or experience within a definedperiod (e.g., are born, are exposed to a drug or vaccine or pollutant, orundergo a certain medical procedure). 在一定时期内具有共同特征或经历的一个群体。(例如,出生日期,使用同种药物、接种同种疫苗或接受特定的医学治疗)。

21. Pedigree chart (谱系图):A chartshowing the genetic connections between individuals. 显示个体之间基因联系的图表。

22.Microevolution(微进化):Thesmall genetic changes due to changing allelic frequencies in populations. 由于群体中等位基因频率的变化引起的小的遗传变化。五个因素:非随机交配、迁移、遗传漂变、突变和自然选择。

23.Genetic drift(基因漂移):is thechange in the frequency of a gene variant (allele) in a populationdue to random sampling of organisms. 是由于机体的随机抽样,导致一个种群中等位基因频率的变化。

24.Linked Genes(连锁基因): Geneslocated together on a chromosome. Linked genes can assort separately from oneanother only through crossing over.位于染色体上一起的基因,连锁基因只有通过交叉互换才能进行单独的组合。在染色体上,两个基因越接近,它们越有可能是连锁基因。分为完全连锁和不完全连锁。

25. Missense mutation(错义突变):A point mutation in which a single nucleotide change results in a codonthat codes for a different amino acid. 一种点突变,其中单个核苷酸的变化导致编码不同氨基酸的密码子的改变。会改变蛋白质序列,一般发生在遗传密码子的第一位或第二位。

26. Nonsense mutation(无义突变):A pointmutation that results in a stop codon (nonsense codon) in a transcribed mRNA,which encodes incomplete and usually nonfunctional protein product.在转录的mRNA中引入终止密码子的点突变。会导致翻译提前终止,得到不完整、无生物功能的蛋白质。更易造成疾病。

27. Synonymous mutation(同义突变):基因发生了点突变,但由于密码子的简并性,并没有影响翻译的蛋白质,但也会因为影响了密码子的使用,会影响翻译过程而导致疾病。

28. rs#:Reference SNPs已经被计算/整理过的SNPs。

ss#:Submitted SNPs,提交的数据,即序列变化的原始观测。

29. Copy number variation (CNV)(拷贝数变异):Copy number variation (CNV) of DNA sequencesconstitute large segments of DNA ranging from 1 Kb that have copy numberdifferences when compared to a reference genome.与参考基因组相比,DNA序列的拷贝数变异(CNV)构成了从1 Kb不等的DNA大段,具有拷贝数差异。

基因拷贝数异变:删除、复制、插入,倒置……

CNV的致病性更强,比SNP更容易被发现,CNVs可以通过细胞遗传学研究检测到。

30. Genome Wide Association Study (GWAS)(全基因组关联分析):GWAS isthe study of genetic variation across the entire genome that is designed toassociate genetic variations (SNPs) with traits or with the presence or absenceof disease or condition.  GWAS是研究整个基因组的遗传变异,旨在将遗传变异(SNPs)与性状或疾病或状态的存在或不存在联系起来,全基因组信息,结合临床和其他表型数据,提供了潜力:增加了对影响人类健康的基本生物过程的了解;疾病预测和病人护理方面的改进;实现个性化医疗的承诺.

十、非编码序列是什么?非编码 RNA 是什么?非编码基因是什么?以人类基因组为例,非编码序列在基因组的占比是多少( 超过97%)?有多少被转录了(超过90%) ?举两个例子说明非编码研究的重要性

非编码序列:
是基因组中不编码蛋白质和多肚的序列;(基因组中不归属于基因调控元件,稳定元件之外的,也无明确生物学功能意义的基因序列统称为非编码序列)
非编码RNA
是指来自非编码序列的转录产物/转录本;
非编码基因
指那些具有明确生物学功能的非编码RNA在基因组上的位置,即功能性的非编码RNA对应基因组上的位置称为非编码基因
非编码研究的重要性:

  • SINE(短散在元件)可以作为调控元件,通过插入基因序列中调控临近基因的转录活性;
  • Xist:诱导X染色体失活,引起剂量补偿效应RNAi(siRNA和microRNA):使mRNA 变成小RNA 片段,抑制转录,从而抑制基因表达
  • PCGEMI:过高表达与前列腺癌相关
  • His-1:与白血病有关,
  • MALAT-1:与非小细胞肺癌有关

评论 46
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码农耕地人~go

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值