【生信MOOC】生信数据库1

【生信MOOC】生信数据库1

文章的文字/图片/代码部分/全部来源网络或学术论文,文章会持续修缮更新,仅供大家学习使用。

目录

【生信MOOC】生信数据库

1、认识生物数据库装载的内容

2、生物数据库的分类

3、文献数据库——PubMed

 4、一级核酸数据库——NCBI的Genbank数据库

4.1——大肠杆菌dUTPas(脱氧尿苷焦磷酸酶)X01714的DNA序列

4.2——编码人dUTPase的成熟mRNA序列U90223

4.3——编码人dUTPase的dut基因序列。序列AF018430

5、一级核酸数据库——基因组数据库Ensemble

6、一级核酸数据库——微生物宏基因组数据库JCVI

7、二级核酸数据库


1、认识生物数据库装载的内容

HIV-one病毒的整个基因组,包含了9752个碱基,编码9个基因。差不多一页A4纸,正反面打印就可以把这九千多个碱基记录下来。

人的基因组要大得多,有3个G,也就是30亿个碱基。如果一页A4纸打印5000个碱基的话,我们需要打印60万页,才能把整个人的基因组打印完。

 在生物中,1000K=1M。1000M=1G。1000G=1T,1000T=1P,依次1000倍1000倍的往上增长。

 

2、生物数据库的分类

核酸数据库:是与核酸相关的数据库。

蛋白质数据库:与蛋白质相关的数据库

专用数据库:专门针对某一主题的数据库,或者是综合性的数据库,以及无法归入其他两类的数据库。

一级数据库:存储的是通过各种科学手段得到的最直接的基础数据。比如测序获得的核酸序列,或者X射线衍射法等获得的蛋白质三维结构。

二级数据库:是通过对一级数据库的资源进行分析、整理、归纳、注释而构建的具有特殊生物学意义和专门用途的数据库。

 

3、文献数据库——PubMed

在搜索时,可以使用引号。引号里的词会被当作一个整体来看待,而不会被拆开。

也可以使用逻辑词ANDORNOT。

在PubMed搜索1995年以前的文献中排名十位以后的作者是白费力气。搜索1976年以前的文献是没有摘要的。搜索1965年以前的文献无结果。

 

 4、一级核酸数据库——NCBI的Genbank数据库

三大核酸数据库包括NCBI的Genbank,EMBL的ENA和DDBJ,它们共同构成国际核酸序列数据库。通过INSDC,三大核酸数据痒的信息每日相互交换、更新汇总,这使得他们几乎在任何时候都享有相同的数据。

 

首先需要明确原核生物和真核生物的基因区别。

原核生物:基因组小,基因是呈线性分布,基因密度高(1000个碱基里就有1个基因),编码区含量高,原核生物没有内含子。

真核生物:基因组大,基因是非线性的,基因密度低(10万个碱基有1个基因),编码区含量低,真核生物有内含子,mRNA要经历剪切的过程,剪切后的成熟mRNA才能进行翻译。

原核生物和真核生物有无内含子导致了两种基因在数据库中不同的存储方式和注释。

 

4.1——大肠杆菌dUTPas(脱氧尿苷焦磷酸酶)X01714的DNA序列

 

字段

解释

LOCUS

包括基因座的名字,核酸序列长度,分子的类别,拓扑类型,原核生物的基因拓扑类型都是线性的,最后是更新日期。

DEFINITION

是这条序列的简短定义,也就是这条序列的标题。

ACCESSION

就是在搜索条中输入的那个数据库编号,也叫做检索号,每条记录的检索号在数据库中是唯一且不变的

即使数据提交者改变了数据内容,Accession也不会变。

同一个基因在不同的数据库中会有不同的检索号(Accession),而基因的名字只有一个(LOCUS)。

Version

版本号的格式是“检索号.版本编号”

GI号

GI号与版本号系统是平行运行的。当一条序列改变后,它将被赋予一个新的GI号,同时它的版本号将增加。

KEYWORDS

提供能够大致描述该条目的几个关键词,可用于数据库搜索。

SOURCE

基因序列所属物种的俗名。

其子条目ORGANISM,是对所属物种更详细的定义,包括他的科学分类。

REFERENCE

是基因序列来源的科学文献。一条基因序列的不同片段可能来源于不同的文献,会有很多个REFERENCE条目出现。

COMMENT

是自由撰写的内容,比如致谢,或者是无法归入前面几项的内容。

FEATURES

是非常重要的注释内容,它描述了核酸序列中各个已确定的片段区域,包含很多子条目,比如来源,启动子,核糖体结合位点等等。

Source

核酸序列的来源,据此可以容易的分辨出这条序列是来源于克隆载体还是基因组。

Promoter

启动子的位置。细菌有两个启动子区,-35区和-10区。

misc_feature

列出了一些杂项,比如,put表示推测,这条说明了从第322个碱基到第324个碱基是一个推测的,但无实验证实的转录起始位置。

RBS

核糖体结合位点的位置。

CDS

CodingSegment,编码区。对于原核生物来讲,CDS记录了一个开放阅读框。从第343个碱基开始的起始密码子ATG到第798个碱基结束的结束密码子TAA。除了位置信息,还包括翻译产物的诸多信息。翻译产物蛋白的名字是dUTPase,这个编码区编码该蛋白的第1到第151个氨基酸。

这不是生物自然翻译的,而是计算机翻译的。

ORIGIN

是核酸序列,以双斜线作为整条记录的结束符。

4.2——编码人dUTPase的成熟mRNA序列U90223

成熟mRNA是已经剪切掉内含子,只剩外显子的序列,所以这条成熟mRNA序列和之前看到的原核生物的DNA序列从拓扑结构上看是几乎一样的。

KEYWORDS后面只有一个点。表示数据库并不是完美的,所有数据库都存在数据不完整的问题。

Features里的注释内容与原核生物的数据库记录相似,

CDS指出了从63到821是一段编码区,在这段编码区里基因是连续的,因为是经过剪切后的成熟mRNA,它将被翻译成线粒体型dUTPase蛋白。

/translation里给出的是计算机翻译出的该蛋白的序列。

sig_peptide(signalpeptide)编码信号肽的碱基的位置。信号肽决定了蛋白质的亚细胞定位,也就是蛋白质工作的地方。

mat_peptide(maturepeptide)指出编码成熟肽链的碱基的位置。他从信号肽后面开始,到编码区结尾提前三个碱基结束。

编码区的最后三个碱基是终止密码子,不翻译。

4.3——编码人dUTPase的dut基因序列。序列AF018430

 

5、一级核酸数据库——基因组数据库Ensemble

Ensembl数据库(http://www.ensembl.org)它收入了各种动物的基因组,特别是那些离人类近的脊椎动物的基因组。

编码dUPTase的dut基因就在15号染色体上。

 在弹出窗口中选择染色体概要(chromosomesummary)。这时我们会得到15号染色体的一个一览图。里面包括编码蛋白的基因、非编码基因、假基因分别在染色体上不同区段内的含量,以及GC百分比(红线),和卫星DNA百分比(黑线)。染色体统计表给出了15号染色体的长度,以及各种类型的基因的个数。

 从Genbank我们了解到,dut基因的第三号外显子位于15号染色体的长臂条带21.1附近。所以我们进一步进入这个条带看一下。点击条带21.1,选择区间链接。这时,这个区间内所有的基因就都被显示在一张图上。可以从这个图谱上直接找到dut基因,并以他为中心放大。如果找不到,也可以通过搜索条输入基因的名字进行查找。

 在以dut基因为中心显示的放大图谱中,点击dut或者对应的区域,在弹出的概况窗口中选择Ensemble数据库的检索号。之后就会出现dut基因在Ensemble数据库中的详细记录。

6、一级核酸数据库——微生物宏基因组数据库JCVI

TIGR是NCBI基因组资源的有力补充,因为它不仅拥有已完成测序的基因组,还有那些测序中的基因组信息。在植物基因组项目中可以找到拟南芥、玉米、苜蓿和柳树的基因组信息。在微生物与环境基因组目中,特别值得关注的是“人类微生物组计划”,HMP。

HMP由美国NIH发起,由4个四个测序中心共同完成,其中一个就是克莱格凡特学院。“人类微生物组计划”堪比“人类基因组计划”。目前,HMP主要包括了人类鼻腔、口腔、皮肤、胃肠道和泌尿生殖道的宏基因组样本数据和分析流程。

 我们目前认知的微生物不到1%,生活在我们肠道中的微生物细胞,是人体细胞的10倍。这些微生物基因组之和是人类基因组的100倍。微生物影响并超越我们的生老病死,有一天人死了,但身体中的微生物却还活着。除了近年来少量的有关糖尿病等与肠道微生物的研究外,我们完全不清楚肠道微生物,呼吸道微生物,还有体表微生物等在人体内做了什么,他们的喜怒哀乐与我们的生老病死有什么关系。

点击统计链接。可以得到HMP中已研究的所有微生物基因组。这些微生物在人体中存在的位置,测序及注释是已完成还是在进行中。

已完成的基因组后面会有三个链接:

WGS  是全基因组鸟枪法测序项目数据库记录的链接。

SRA  是高通量测序数据库记录的链接。这两个链接里记录的是测序的信息。

ANNOTATION  链接里的内容,他列出了某个基因组在Genbank中所有注释的链接。比如微生物AcinetobacterradioresistensSK82的基因组共分成82条序列记录在Genbank数据库中。

 

7、二级核酸数据库

二级核酸数据库包括的内容非常多。其中NCBI下属的三个数据库经常会用到。他们是RefSeq数据库,dbEST数据库和Gene数据库。

RefSeq数据库,也叫参考序列数据库,是通过自动及人工精选出的非冗余数据库,包括基因组序列、转录序列和蛋白质序列。凡是叫ref什么的数据库都是非冗余数据库,就是已经帮你把重复的内容去除掉了。

dbEST数据库,也就是表达序列标签数据库,存储的是不同物种的表达序列标签。

Gene数据库以基因为记录对象为用户提供基因序列注释和检索服务,收录了来自5300多个物种的430万条基因记录。

非编码RNA数据库,提供非编码RNA的序列和功能信息。

非编码RNA不编码蛋白质但在细胞中起调节作用。目前该数据库包含来源于99种细菌,古细菌和真核生物的3万多条序列。microRNA数据库主要存放已发表的microRNA序列和注释。这个数据库可以分析microRNA在基因组中的定位和挖掘microRNA序列间的关系。

 

课程学习链接:生物信息学_中国大学MOOC(慕课) (icourse163.org)

  • 4
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值