文章目录
生物数据库
生物数据库的分类
核酸数据库和蛋白质数据库又分为一级和二级。
一级数据库存储的是通过各种科学手段得到的最直接的基础数据。比如测序获得的核酸序列,或者X射线衍射法等获得的蛋白质三维结构。蛋白质的一级数据库还可以再具体分为蛋白质序列数据库和蛋白质结构数据库。二级数据库是通过对一级数据库的资源进行分析、整理、归纳、注释而构建的具有特殊生物学意义和专门用途的数据库。比如从三大核酸数据库和基因组数据库中提取并加工出的果蝇和蠕虫数据库,再比如根据蛋白质三维结构数据库中的结构信息,分析统计出的蛋白质结构分类数据库CATH和SCOP等。
文献数据库:PubMed
https://pubmed.ncbi.nlm.nih.gov/
一级核酸数据库(主要包括:三大核酸数据库+基因组数据库)
一级核酸数据库,主要包括三大核酸数据库和基因组数据库。
三大核酸数据库包括:NCBI的Genbank ,EMBL的ENA 和 DDBJ
它们共同构成国际核酸序列数据
三大核酸数据库,美国一个,欧洲一个,亚洲一个。
美国的 Genbank由美国国家生物技术信息中心NCBI开发并负责维护。NCBI隶属于美国国立卫生研究院NIH。
欧洲核苷酸序列数据集ENA由欧洲分子生物学研究室EMBL开发并负责维护。
亚洲的核酸数据库DDBJ由位于日本静冈的日本国立遗传学研究所NIG 开发并负责维护。
Genbank,EMBL与DDBJ共同构成国际核酸序列数据库合作联盟INSDC。
(International Nucleotide SequenceDatabase Collaboration,INSDC)
通过INSDC,三大核酸数据库的信息每日相互交换,更新汇总。这使得他们几乎在任何时候都享有相同的数据。
一级核酸数据库:GenBank
这里的东西有点多:可能笔记表述不清,可以直接看下课程视频2.4节
https://www.icourse163.org/learn/SDU-1001907001?tid=1461410447#/learn/content?type=detail&id=1237778638&cid=1257877429&replay=true
以NCBI 的Genbank为例,学习如何解读一级核酸数据库。将分别浏览一个原核生物的基因和一个真核生物的基因。为此,首先了解一下原核生物与真核生物基因的不同之处:
-
原核生物基因组小,真核生物基因组大
-
原核生物基因密度高,1000个碱基里就有1个基因,而真核生物基因密度低,比如人,要10万个碱基才有1个基因。与此对应,原核生物编码区含量高,而真核生物低。
-
原核生物的基因是呈线性分布的,而真核生物的基因是非线性的,因为翻译蛋白质的外显子被内含子分隔开来。
-
最大区别:真核生物的mRNA 要经历剪切的过程,剪切后的成熟mRNA才能进行翻译。这是原核生物和真核生物基因的最大区别,即,原核生物没有内含子,真核生物有内含子。这个巨大的区别,将导致两种基因在数据库中不同的存储及注释方式。
原核生物的 DNA序列
从NCBI的主页(http://www.ncbi.nIm.nih.gov/))选择Genbank数据库。Nucleotide数据库就是Genbank 数据库,然后在搜索条中直接写入这条序列对应的数据库编号(如:编码大肠杆菌dUTPase 的基因,在Genbank 里的数据库编号是X01714),点击“搜索”。结果返回编号为X01714的序列在Genbank 中详细记录。从这条记录的标题我们得知,dUTPase是脱氧尿苷焦磷酸酶,编码他的基因叫dut基因,所属物种是大肠杆菌。下面是关于这个基因的详细注释,逐条浏览一下:
生物中的bp是碱基对的意思。bp的全称为Base Pair
ACCSEESION: 检索号
LOCUS: 名字
DEFITION: 简短的定义,标题
VERSION: 版本号
当一个序列发生了改变,它的检索号(Accession)不变,但会被赋予一个新的版本号。
KEYWORDS: 能够大致描述该条目的几个关键词可用于数据库搜索。
SOURCE: 基因序列所属物种的俗名。
ORGANISM: 对所属物种更详细的定义包括他的科学分类。
REFERENCE: 基因序列来源的科学文献(一条基因序列的不同片段可能来源于不同的文献)。文献具体分为作者、题目和刊物。刊物还包括PubMed ID作为其子条目
COMMENT: 自由撰写内容,比如致谢或者是无法归入前面几项的内容。
FEATURES:描述核酸序列中各个已确定的片段区域,包含很多子条目,比如来源(source),启动子(promoter)等。
Features的子条目需要具体参照例子来理解,看这个视频的01:34即可
https://www.icourse163.org/learn/SDU-1001907001?tid=1461410447#/learn/content?type=detail&id=1237778638&cid=1257877431
一级核酸数据库:基因组数据库
二级核酸数据库:GeneBank
今天有点事情,so没有学习后面的
来日补上~