生物信息学数据库已形成覆盖 “核酸 - 蛋白质 - 功能 - 表型 - 疾病” 的全链条资源网络,按功能定位可分为十大核心类别,每个类别均包含国际权威数据库与特色专项资源,以下是系统、详细的全景介绍。
一、核酸序列数据库:生命密码的基础存储体系
1. 国际核心核酸数据库联盟(INSDC)
-
GenBank(NCBI,美国)
- 定位:全球最大的公开核酸序列数据库,INSDC 核心成员之一。
- 数据规模:收录 34 万 + 物种、130 亿 + 碱基对序列,涵盖基因组、转录本、EST、质粒等类型。
- 核心功能:支持序列提交(BankIt/Sequin 工具)、关键词 / Accession 号 / BLAST 检索,每条记录含基因位置、功能注释、参考文献等完整信息。
- 协作机制:与 ENA、DDBJ 每日同步数据,确保全球数据一致性。
-
ENA(欧洲核苷酸档案库,EMBL-EBI)
- 定位:欧洲核心核酸数据库,侧重高通量测序数据存储与标准化分析。
- 特色优势:支持原始测序数据(FASTQ/BAM)直接上传与批量下载,提供多维检索工具和在线分析流程。
- 数据覆盖:整合基因组、转录组、宏基因组等数据,与 GenBank、DDBJ 完全互通。
-
DDBJ(日本 DNA 数据库)
- 定位:亚洲核心核酸数据库,INSDC 三大成员之一。
- 特色优势:关注东亚物种基因组数据,提供多语言界面,支持复杂注释序列提交,与另外两大库共享 Accession 号体系。
2. 参考序列与基因组数据库
-
RefSeq(NCBI)
- 定位:非冗余、人工校验的参考序列数据库,含基因组、转录本、蛋白质三类参考序列。
- 核心价值:每个基因位点仅保留一个代表性序列,Accession 号稳定,是变异检测、序列比对的 “金标准” 参考。
-
Ensembl Genomes(EMBL-EBI)
- 定位:多物种基因组注释平台,覆盖细菌、真菌、植物、无脊椎动物等。
- 特色功能:提供交互式基因组浏览器、基因结构注释、比较基因组学工具,支持批量数据下载与 API 调用。
-
UCSC Genome Browser(UCSC)
- 定位:基因组可视化与注释核心工具,整合多来源基因组数据。
- 核心功能:展示染色体结构、基因分布、保守区域、调控元件,支持自定义数据上传与共线性分析。
3. 专项核酸数据库
-
SRA(Sequence Read Archive,NCBI)
- 定位:高通量测序原始数据仓库,存储 FASTQ、BAM 等格式数据。
- 数据规模:收录全球千万级测序样本,涵盖 RNA-seq、ChIP-seq、ATAC-seq 等多种实验类型。
- 应用场景:二次数据分析、数据重分析、方法学验证的核心数据源。
-
dbSTS(Sequence Tagged Site Database,NCBI)
- 定位:序列标记位点数据库,GenBank 子库,含多物种 EST 和 STS 序列信息。
- 应用价值:基因定位、基因组图谱构建、PCR 引物设计的重要资源。
-
EPD(Eukaryotic Promoter Database)
- 定位:真核生物启动子数据库,收录实验验证的启动子序列与调控信息。
- 特色:提供启动子区域特征分析、转录因子结合位点预测相关数据。
-
TRANSFAC(真核生物转录调控因子数据库)
- 定位:收录转录因子、结合位点及调控通路信息,支持基因表达调控网络分析。
二、蛋白质数据库:结构与功能的系统解析资源
1. 综合蛋白质序列数据库
-
UniProt(UniProt Consortium)
- 定位:全球最全面的蛋白质信息数据库,整合 Swiss-Prot、TrEMBL、PIR-PSD 三大子库。
- 核心组件:
- Swiss-Prot:手动注释、高质量条目(56 万 +),含功能位点、结构域、疾病关联等详细信息。
- TrEMBL:自动注释的海量序列(2 亿 +),覆盖所有已知蛋白质。
- 特色优势:每个蛋白质分配唯一 UniProt ID,支持跨数据库引用,整合结构、相互作用、表达谱数据。
-
Human Protein Atlas(HPA)
- 定位:人体蛋白质表达图谱数据库,整合组织、细胞、病理条件下的蛋白质表达数据。
- 核心功能:提供蛋白质在不同组织 / 细胞中的定位信息,支持疾病标志物筛选与药物靶点验证。
2. 蛋白质结构数据库
-
PDB(Protein Data Bank)
- 定位:全球唯一的生物大分子三维结构数据库,存储蛋白质、核酸、复合物的实验结构。
- 数据来源:X 射线晶体学、核磁共振(NMR)、冷冻电镜(Cryo-EM)实验结果。
- 数据规模:收录 20 万 + 结构条目,支持结构可视化(PyMOL、RCSB Viewer)与分子对接分析。
-
AlphaFold DB(DeepMind + EMBL-EBI)
- 定位:AI 预测蛋白质结构数据库,基于 AlphaFold2/3 模型构建。
- 数据规模:收录 2.14 亿 + 蛋白质结构,覆盖 UniProt 90% 以上序列,含人类及 47 种关键物种 proteome。
- 核心指标:提供 pLDDT(置信度得分)和 PAE(对接误差矩阵),支持单体与多聚体结构查询。
- 应用场景:未知结构蛋白质功能预测、药物设计、结构生物学研究补充。
3. 蛋白质分类与结构域数据库
-
SCOP(Structural Classification of Proteins)
- 定位:基于结构同源性的蛋白质分类数据库,分为折叠类型、超家族、家族三个层级。
-
CATH(Class Architecture Topology Homology)
- 定位:蛋白质结构与功能关系分类数据库,采用四级分类体系(Class、Architecture、Topology、Homology)。
-
Pfam(Protein Families Database)
- 定位:基于隐马尔可夫模型(HMM)的蛋白质结构域家族数据库,收录 1.9 万 + 保守结构域。
- 应用价值:蛋白质功能预测、同源序列分析、结构域注释的核心工具。
三、功能注释与通路数据库:基因功能的标准化解析体系
1. 功能注释核心数据库
-
Gene Ontology(GO)
- 定位:基因功能标准化描述体系,由分子功能(MF)、生物过程(BP)、细胞组分(CC)三级分类构成。
- 核心价值:术语间建立 “is_a”“part_of” 关系,形成有向无环图,是差异表达基因功能富集分析的标准工具。
-
GeneCard(Weizmann Institute)
- 定位:整合型人类基因数据库,汇集 125 个来源的基因组、转录组、蛋白质组、临床数据。
- 特色优势:提供基因的全方位信息概览,支持基因 - 疾病 - 药物关联网络查询。
2. 通路分析数据库
-
KEGG(Kyoto Encyclopedia of Genes and Genomes)
- 定位:整合基因组、代谢通路、疾病、药物的综合数据库。
- 核心组件:
- KEGG PATHWAY:手工绘制 372 条参考通路,涵盖代谢、信号转导、疾病等类别。
- KEGG ORTHOLOGY(KO):跨物种同源基因分组,支持功能预测。
- 特色功能:通路可视化、基因 - 疾病 - 药物关联分析,覆盖 700 + 物种。
-
Reactome(Reactome Consortium)
- 定位:免费、开源、同行评审的通路数据库,聚焦生物过程的反应级联。
- 特色优势:支持通路可视化与交互式分析,提供中文镜像站点(reactome.ncpsb.org.cn),适合癌症及复杂疾病通路网络研究。
-
WikiPathways
- 定位:社区驱动的通路数据库,允许用户编辑与贡献通路信息,覆盖多物种通路资源。
-
ConsensusPathDB
- 定位:分子功能互作元数据库,整合 32 个公共数据库的蛋白质相互作用、信号通路、代谢网络数据。
四、变异与疾病数据库:基因组差异与表型关联资源
1. 遗传变异数据库
-
dbSNP(NCBI)
- 定位:全球最大的遗传变异数据库,收录 SNP、短 indel、微卫星等变异。
- 数据规模:10 亿 + 变异位点,含人群频率、分子效应、临床关联等注释。
- 核心标识:每个变异分配唯一 rsID,支持跨数据库关联查询。
-
gnomAD(Genome Aggregation Database)
- 定位:大规模人群基因组变异数据库,含 7.6 万 + 无亲缘关系个体全基因组数据。
- 数据价值:提供变异人群频率基准,助力罕见病致病性变异筛选,鉴定 44.4 万 + 预测致病性 LOF 变异。
2. 癌症专项数据库
-
TCGA(The Cancer Genome Atlas)
- 定位:癌症基因组图谱数据库,覆盖 33 种肿瘤类型。
- 数据特色:整合多组学数据(基因组、转录组、甲基化、蛋白质组)与临床信息(含预后随访)。
- 核心价值:支持跨组学关联分析(如突变 - 表达 - 预后关联),是癌症精准医疗研究的核心资源。
-
ICGC(International Cancer Genome Consortium)
- 定位:国际癌症基因组联盟数据库,整合 TCGA 及全球其他队列数据。
- 数据规模:收录 3 万 + 癌症样本基因组数据,支持多地区、多人群癌症基因组特征比较。
- 现状:原数据门户已关闭,PCAWG 数据及最新 ARGO 项目数据对授权用户开放。
-
GTEx(Genotype-Tissue Expression)
- 定位:正常人体组织基因表达数据库,与 TCGA 形成互补。
- 应用价值:提供正常组织基因表达基线,提升癌症差异表达分析准确性,支持组织特异性表达研究。
3. 疾病关联数据库
-
OMIM(Online Mendelian Inheritance in Man)
- 定位:人类孟德尔遗传病知识库,收录单基因遗传病与基因的关联信息。
- 内容特色:详细描述疾病表型、遗传模式、分子机制,与 Gene、ClinVar 等数据库交叉引用。
-
ClinVar(NCBI)
- 定位:变异临床意义数据库,收集专家评审的 “变异 - 疾病 - 临床意义” 关联信息。
- 应用场景:临床基因检测报告解读、遗传病诊断、药物基因组学研究的权威参考。
-
SNPedia
- 定位:SNP 与表型关联数据库,收录 SNP 对疾病、性状的影响信息,支持个性化基因组解读。
五、表观遗传与表达谱数据库:基因调控的时空动态资源
1. 基因表达数据库
-
GEO(Gene Expression Omnibus,NCBI)
- 定位:全球最大的基因表达数据仓库,存储微阵列、RNA-seq 等高通量数据。
- 数据规模:20 万 + 研究项目、650 万 + 样本,支持跨平台数据整合与元分析。
- 特色功能:提供 GEO2R 在线工具,支持差异表达基因快速分析。
-
ArrayExpress(EMBL-EBI)
- 定位:欧洲功能基因组数据存档平台,与 GEO 齐名,支持 MIAME 标准数据提交。
- 数据类型:涵盖基因表达、ChIP-seq、ATAC-seq 等多种功能基因组数据。
2. 表观遗传数据库
-
ENCODE(Encyclopedia of DNA Elements)
- 定位:DNA 功能元件百科全书,解析人类和小鼠基因组调控元件。
- 数据内容:转录因子结合位点、组蛋白修饰、DNA 甲基化、染色质可及性等信息。
- 数据规模:500TB + 原始数据,来自 1.5 万 + 实验,支持细胞类型特异性调控网络分析。
-
Roadmap Epigenomics
- 定位:人类表观基因组图谱数据库,覆盖 111 个人类参考表观基因组。
- 特色优势:聚焦不同细胞类型 / 组织的表观遗传差异,助力细胞分化与疾病调控机制研究。
3. 单细胞与空间转录组数据库
-
Single Cell Atlas(SCA)
- 定位:单细胞多组学图谱数据库,整合 125 种健康成人 / 胚胎组织的单细胞 RNA-seq、ATAC-seq 等数据。
- 核心功能:支持多组学数据交互式查询、细胞类型注释、细胞通讯分析,提供一站式单细胞研究平台。
-
SpatialDB
- 定位:空间转录组数据库,收录空间分辨率的基因表达数据,支持组织微环境与细胞定位关系分析。
六、代谢组与相互作用数据库:分子网络的系统解析资源
1. 代谢组学数据库
-
HMDB(Human Metabolome Database)
- 定位:人类代谢组综合数据库,版本 5.0 收录 40 万 + 代谢物条目。
- 数据内容:代谢物化学结构、生物途径、疾病关联、质谱特征,是代谢组学研究的核心资源。
-
METLIN
- 定位:代谢物质谱数据库,拥有 43 万 + 高质量 MS/MS 图谱,适合非靶向代谢组学鉴定。
-
LIPID MAPS
- 定位:脂质组学数据库,收录脂质分子结构、分类、代谢途径及质谱数据。
2. 分子相互作用数据库
-
STRING(Search Tool for the Retrieval of Interacting Genes/Proteins)
- 定位:蛋白质相互作用数据库,覆盖 9600 个物种,整合实验验证与预测数据。
- 特色功能:提供相互作用网络可视化、功能富集分析,支持多物种网络比较。
-
BioGRID
- 定位:综合性生物相互作用数据库,收录 280 万 + 蛋白质 - 蛋白质、遗传及化学相互作用。
- 应用场景:药物靶点发现、多组学网络分析、信号通路构建。
-
IntAct(EMBL-EBI)
- 定位:高质量蛋白质相互作用数据库,数据经实验验证,支持 MI TAB 标准格式导出。
3. 药物与靶点数据库
-
ChEMBL
- 定位:药物 - 靶点相互作用数据库,收录 20 万 + 化合物与靶点的活性数据。
- 应用价值:药物筛选、靶点验证、药物重定位研究的重要资源。
-
DrugBank
- 定位:综合药物数据库,含药物化学结构、靶点、药理作用、临床应用等信息。
七、微生物数据库:微生物组与病原体资源体系
-
MGnify(EMBL-EBI)
- 定位:宏基因组与微生物组分析平台,支持 16S rRNA、宏基因组测序数据的功能与分类学分析。
- 特色功能:用户可上传数据与公共数据集比较,提供标准化分析流程。
-
IMG(Integrated Microbial Genomes,JGI)
- 定位:整合微生物基因组数据库,涵盖细菌、古菌、病毒的基因组数据与比较分析工具。
-
CyanoBase
- 定位:蓝细菌基因组数据库,提供集胞蓝细菌等物种的基因组注释、代谢途径信息。
-
RegulonDB
- 定位:大肠杆菌转录调控数据库,收录基因调控网络、启动子、操作子等信息。
八、特殊领域数据库:物种与功能专项资源
1. 免疫相关数据库
-
IMGT(International ImMunoGeneTics Database)
- 定位:免疫遗传学权威数据库,收录免疫球蛋白(Ig)、T 细胞受体(TcR)、MHC 分子序列。
- 应用场景:抗体工程、 autoimmune 疾病研究、免疫治疗靶点发现。
-
Immune Epitope Database(IEDB)
- 定位:抗原表位数据库,收录病原体、自身抗原的 B 细胞 / T 细胞表位信息,支持疫苗设计。
2. 植物数据库
-
TAIR(The Arabidopsis Information Resource)
- 定位:拟南芥研究核心数据库,整合基因组、基因功能、突变体等信息。
-
Phytozome
- 定位:多植物基因组数据库,整合 50 + 植物物种的基因组序列与统一注释,支持比较基因组学研究。
-
Rice Genome Annotation Project
- 定位:水稻基因组注释数据库,提供水稻基因结构、功能、表达谱等详细信息。
3. 病毒数据库
-
NCBI Virus(NCBI)
- 定位:病毒序列整合资源,收录 GenBank/RefSeq 中的病毒序列,支持分类检索与进化分析。
- 特色功能:提供分段病毒基因组组装、序列比对工具,助力病毒溯源研究。
-
ViralZone(SIB Swiss Institute of Bioinformatics)
- 定位:病毒分类与注释数据库,含病毒形态、结构、生命周期、宿主信息,支持可视化浏览。
4. 模式生物数据库
-
MGD(Mouse Genome Database)
- 定位:小鼠基因组数据库,整合小鼠遗传、基因组、表型、疾病模型信息。
-
SGD(Saccharomyces Genome Database)
- 定位:酿酒酵母基因组数据库,是真菌研究的核心资源,含基因功能、相互作用、突变体数据。
-
FlyBase(果蝇)、WormBase(线虫)、Zebrafish Information Network(斑马鱼)
- 定位:对应模式生物的综合性数据库,整合基因组、发育、遗传、表型等全方位信息。
九、数据库整合工具与国际协作机制
1. 核心整合工具
- Entrez(NCBI):跨数据库全局检索系统,支持 NCBI 所有数据库的联合查询与关联浏览。
- BioMart:多数据库 ID 映射与数据提取工具,支持批量获取基因、蛋白质的多维度注释。
- UCSC Table Browser:基因组区间数据提取工具,支持自定义注释轨道下载。
- clusterProfiler:R 语言工具包,支持 GO、KEGG 等数据库的功能富集分析,整合多数据库注释资源。
2. 国际协作体系
- INSDC(国际核酸序列数据库联盟):GenBank、ENA、DDBJ 三方协作,确保核酸序列数据全球共享与同步。
- ICGC ARGO:国际癌症基因组联盟新阶段项目,推动癌症基因组数据向临床转化。
- CCDS(Consensus CDS):NCBI、UCSC、EBI 联合维护,提供人类 / 小鼠基因的统一编码序列注释。
十、数据库选择与应用指南
1. 按研究场景选择核心数据库组合
| 研究方向 | 推荐数据库组合 | 核心用途 |
|---|---|---|
| 基础序列分析 | GenBank/RefSeq + BLAST + Ensembl | 序列检索、比对、基因结构注释 |
| 癌症多组学研究 | TCGA + ICGC + GTEx + GEO | 多组学数据整合、临床关联分析 |
| 蛋白质结构研究 | PDB + AlphaFold DB + Pfam | 结构查询、未知结构预测、结构域分析 |
| 功能富集分析 | GO + KEGG + Reactome | 差异基因功能分类、通路富集 |
| 单细胞研究 | Single Cell Atlas + GEO + ENCODE | 细胞类型注释、调控网络分析 |
| 疫苗 / 免疫研究 | IMGT + IEDB + ViralZone | 抗原表位设计、免疫靶点筛选 |
2. 数据库选择原则
- 优先选择权威机构(NCBI、EMBL-EBI、SIB)维护的数据库,确保数据质量。
- 功能研究优先选择手动注释数据库(如 Swiss-Prot、OMIM),高通量分析可选用自动注释数据库(如 TrEMBL)。
- 跨数据库分析需统一标识符(如 GeneID、UniProt ID、rsID),利用 BioMart 等工具进行 ID 映射。
生物信息学数据库全景指南
9985

被折叠的 条评论
为什么被折叠?



