【生信MOOC】生信数据库1

朝荣

已于 2022-03-01 20:32:34 修改

阅读量5k

点赞数 4

分类专栏：生物信息学文章标签：生物信息学数据库

于 2022-03-01 20:32:28 首次发布

本文链接：https://blog.csdn.net/weixin_40695088/article/details/123201523

版权

生物信息学专栏收录该内容

20 篇文章

订阅专栏

本文介绍了生物数据库的基本内容，包括一级和二级核酸数据库，如PubMed、NCBI的Genbank、Ensemble和微生物宏基因组数据库JCVI。讲解了不同数据库的特点，如PubMed的文献搜索，Genbank的基因序列信息，以及Ensemble的基因组数据。此外，还探讨了非编码RNA和microRNA的相关数据库。内容适合生物信息学初学者了解和学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【生信MOOC】生信数据库1

文章的文字/图片/代码部分/全部来源网络或学术论文，文章会持续修缮更新，仅供大家学习使用。

4、一级核酸数据库——NCBI的Genbank数据库

4.1——大肠杆菌dUTPas（脱氧尿苷焦磷酸酶）X01714的DNA序列

4.2——编码人dUTPase的成熟mRNA序列U90223

4.3——编码人dUTPase的dut基因序列。序列AF018430

5、一级核酸数据库——基因组数据库Ensemble

6、一级核酸数据库——微生物宏基因组数据库JCVI

7、二级核酸数据库

1、认识生物数据库装载的内容

HIV-one病毒的整个基因组，包含了9752个碱基，编码9个基因。差不多一页A4纸，正反面打印就可以把这九千多个碱基记录下来。

人的基因组要大得多，有3个G，也就是30亿个碱基。如果一页A4纸打印5000个碱基的话，我们需要打印60万页，才能把整个人的基因组打印完。

在生物中，1000K=1M。1000M=1G。1000G=1T，1000T=1P，依次1000倍1000倍的往上增长。

2、生物数据库的分类

核酸数据库：是与核酸相关的数据库。

蛋白质数据库：与蛋白质相关的数据库

专用数据库：专门针对某一主题的数据库，或者是综合性的数据库，以及无法归入其他两类的数据库。

一级数据库：存储的是通过各种科学手段得到的最直接的基础数据。比如测序获得的核酸序列，或者X射线衍射法等获得的蛋白质三维结构。

二级数据库：是通过对一级数据库的资源进行分析、整理、归纳、注释而构建的具有特殊生物学意义和专门用途的数据库。

3、文献数据库——PubMed

在搜索时，可以使用引号。引号里的词会被当作一个整体来看待，而不会被拆开。

也可以使用逻辑词ANDORNOT。

在PubMed搜索1995年以前的文献中排名十位以后的作者是白费力气。搜索1976年以前的文献是没有摘要的。搜索1965年以前的文献无结果。

4、一级核酸数据库——NCBI的Genbank数据库

三大核酸数据库包括NCBI的Genbank，EMBL的ENA和DDBJ，它们共同构成国际核酸序列数据库。通过INSDC，三大核酸数据痒的信息每日相互交换、更新汇总，这使得他们几乎在任何时候都享有相同的数据。

首先需要明确原核生物和真核生物的基因区别。

原核生物：基因组小，基因是呈线性分布，基因密度高（1000个碱基里就有1个基因），编码区含量高，原核生物没有内含子。

真核生物：基因组大，基因是非线性的，基因密度低（10万个碱基有1个基因），编码区含量低，真核生物有内含子，mRNA要经历剪切的过程，剪切后的成熟mRNA才能进行翻译。

原核生物和真核生物有无内含子导致了两种基因在数据库中不同的存储方式和注释。

4.1——大肠杆菌dUTPas（脱氧尿苷焦磷酸酶）X01714的DNA序列

字段	解释
LOCUS	包括基因座的名字，核酸序列长度，分子的类别，拓扑类型，原核生物的基因拓扑类型都是线性的，最后是更新日期。
DEFINITION	是这条序列的简短定义，也就是这条序列的标题。
ACCESSION	就是在搜索条中输入的那个数据库编号，也叫做检索号，每条记录的检索号在数据库中是唯一且不变的。即使数据提交者改变了数据内容，Accession也不会变。同一个基因在不同的数据库中会有不同的检索号（Accession），而基因的名字只有一个（LOCUS）。
Version	版本号的格式是“检索号.版本编号”
GI号	GI号与版本号系统是平行运行的。当一条序列改变后，它将被赋予一个新的GI号，同时它的版本号将增加。
KEYWORDS	提供能够大致描述该条目的几个关键词，可用于数据库搜索。
SOURCE	基因序列所属物种的俗名。其子条目ORGANISM，是对所属物种更详细的定义，包括他的科学分类。
REFERENCE	是基因序列来源的科学文献。一条基因序列的不同片段可能来源于不同的文献，会有很多个REFERENCE条目出现。
COMMENT	是自由撰写的内容，比如致谢，或者是无法归入前面几项的内容。
FEATURES	是非常重要的注释内容，它描述了核酸序列中各个已确定的片段区域，包含很多子条目，比如来源，启动子，核糖体结合位点等等。
Source	核酸序列的来源，据此可以容易的分辨出这条序列是来源于克隆载体还是基因组。
Promoter	启动子的位置。细菌有两个启动子区，-35区和-10区。
misc_feature	列出了一些杂项，比如，put表示推测，这条说明了从第322个碱基到第324个碱基是一个推测的，但无实验证实的转录起始位置。
RBS	核糖体结合位点的位置。
CDS	CodingSegment，编码区。对于原核生物来讲，CDS记录了一个开放阅读框。从第343个碱基开始的起始密码子ATG到第798个碱基结束的结束密码子TAA。除了位置信息，还包括翻译产物的诸多信息。翻译产物蛋白的名字是dUTPase，这个编码区编码该蛋白的第1到第151个氨基酸。这不是生物自然翻译的，而是计算机翻译的。
ORIGIN	是核酸序列，以双斜线作为整条记录的结束符。

4.2——编码人dUTPase的成熟mRNA序列U90223

成熟mRNA是已经剪切掉内含子，只剩外显子的序列，所以这条成熟mRNA序列和之前看到的原核生物的DNA序列从拓扑结构上看是几乎一样的。

KEYWORDS后面只有一个点。表示数据库并不是完美的，所有数据库都存在数据不完整的问题。

Features里的注释内容与原核生物的数据库记录相似，

CDS指出了从63到821是一段编码区，在这段编码区里基因是连续的，因为是经过剪切后的成熟mRNA，它将被翻译成线粒体型dUTPase蛋白。

/translation里给出的是计算机翻译出的该蛋白的序列。

sig_peptide（signalpeptide）编码信号肽的碱基的位置。信号肽决定了蛋白质的亚细胞定位，也就是蛋白质工作的地方。

mat_peptide（maturepeptide）指出编码成熟肽链的碱基的位置。他从信号肽后面开始，到编码区结尾提前三个碱基结束。

编码区的最后三个碱基是终止密码子，不翻译。

4.3——编码人dUTPase的dut基因序列。序列AF018430

5、一级核酸数据库——基因组数据库Ensemble

Ensembl数据库（http://www.ensembl.org）它收入了各种动物的基因组，特别是那些离人类近的脊椎动物的基因组。

编码dUPTase的dut基因就在15号染色体上。

在弹出窗口中选择染色体概要（chromosomesummary）。这时我们会得到15号染色体的一个一览图。里面包括编码蛋白的基因、非编码基因、假基因分别在染色体上不同区段内的含量，以及GC百分比（红线），和卫星DNA百分比（黑线）。染色体统计表给出了15号染色体的长度，以及各种类型的基因的个数。

从Genbank我们了解到，dut基因的第三号外显子位于15号染色体的长臂条带21.1附近。所以我们进一步进入这个条带看一下。点击条带21.1，选择区间链接。这时，这个区间内所有的基因就都被显示在一张图上。可以从这个图谱上直接找到dut基因，并以他为中心放大。如果找不到，也可以通过搜索条输入基因的名字进行查找。

在以dut基因为中心显示的放大图谱中，点击dut或者对应的区域，在弹出的概况窗口中选择Ensemble数据库的检索号。之后就会出现dut基因在Ensemble数据库中的详细记录。

6、一级核酸数据库——微生物宏基因组数据库JCVI

TIGR是NCBI基因组资源的有力补充，因为它不仅拥有已完成测序的基因组，还有那些测序中的基因组信息。在植物基因组项目中可以找到拟南芥、玉米、苜蓿和柳树的基因组信息。在微生物与环境基因组目中，特别值得关注的是“人类微生物组计划”，HMP。

HMP由美国NIH发起，由4个四个测序中心共同完成，其中一个就是克莱格凡特学院。“人类微生物组计划”堪比“人类基因组计划”。目前，HMP主要包括了人类鼻腔、口腔、皮肤、胃肠道和泌尿生殖道的宏基因组样本数据和分析流程。

我们目前认知的微生物不到1%，生活在我们肠道中的微生物细胞，是人体细胞的10倍。这些微生物基因组之和是人类基因组的100倍。微生物影响并超越我们的生老病死，有一天人死了，但身体中的微生物却还活着。除了近年来少量的有关糖尿病等与肠道微生物的研究外，我们完全不清楚肠道微生物，呼吸道微生物，还有体表微生物等在人体内做了什么，他们的喜怒哀乐与我们的生老病死有什么关系。