全球蛋白质及基因组经典数据库汇总

全球蛋白质及基因组经典数据库

1UniProt-----最全面最好用的综合数据库

数据库官网链接:UniProt

UniProt(Universal Protein Resource)是一个综合性的蛋白质数据库,提供了全球范围内已知的蛋白质序列和功能信息。其中,UniProtKB(UniProt Knowledgebase)是最核心的组成部分,包含了经过注释和分类的蛋白质序列和功能信息。它提供了详细的蛋白质注释,包括序列特征、结构域、功能、亚细胞定位、酶活性等。
UniProtKB分为三个子数据库:UniProtKB/Swiss-Prot、UniProtKB/TrEMBL和UniProtKB/PIR。其中,UniProtKB/Swiss-Prot是手工注释的高质量蛋白质数据库,提供了丰富的注释信息;UniProtKB/TrEMBL是通过自动注释和预测获得的蛋白质数据库,注释水平相对较低;UniProtKB/PIR是由Protein Information Resource(PIR)提供的蛋白质数据库。


蛋白三维结构数据库

2PDB

数据库链接:RCSB PDB: Homepage

Protein Data Bank(PDB) 为存储蛋白质3D结构的数据库,提供蛋白的结构解析和功能注释。我们可以通过PDB查找蛋白的3D结构信息。


3、神奇的Google,神奇的Alphafold 2

网址:http://www.alphafold.ebi.ac.uk

基因组数据库

4Ensembl-----动物基因组的百科全书
数据库网址:Ensembl genome browser 112

想要研究动物的基因组吗?Ensembl绝对是你的首选!这个由欧洲生物信息学研究所和英国桑格研究院联手打造的数据库,收录了各种动物的基因组信息,让你在比较基因组学、演化生物学研究、序列变异和转录调控等领域游刃有余!

5UCSC Genome Browser-----你的基因组浏览器
数据库网址:UCSC Genome Browser Home

想要直观展示和浏览基因组及其功能信息吗?UCSC Genome Browser是你的得力助手!这个强大的浏览器不仅能展示任何规模基因组的任意部分,还提供了丰富的注释信息,让你的研究更加便捷高效!

转录因子数据库

6AnimalTFDB -----动物转录因子和转录辅因子的宝库
数据库网址:AnimalTFDB4

AnimalTFDB是一个收录了动物转录因子和转录辅因子(transcription cofactors)信息的数据库。无论你是想了解转录因子的家族分类,还是想探索它们在基因表达调控中的作用,AnimalTFDB都能为你提供详尽的信息!

7PlantTFDB -----植物转录因子的宝库
数据库网址:https://planttfdb.gao-lab.org/

想要探索植物基因表达的调控奥秘?PlantTFDB是你的不二之选!它涵盖了156个物种的基因组数据,收录了315,099个转录因子。从结合位点到调控元素,再到它们之间的相互作用,这里应有尽有!

8JASPAR -----转录因子在DNA上的结合位点的数据库

数据库网址:JASPAR -A database of transcription factor binding profiles  

JASPAR是一个免费公开的转录因子数据库,在该数据库中收录了转录因子的motif信息,通过JASPAR数据库,我们能获取转录因子偏好结合的motif序列信息,然后通过软件进行序列比对来判断和预测基因组中可能结合该转录因子的基因。

9TRANSFAC-----关于转录因子、它们在基因组上的结合位点的数据库

数据库网址:TRANSFAC - geneXplain

TRANSFAC是gene-regulation.com旗下的子数据库。 TRANSFAC数据库收录了真核生物转录因子信息,包括实验证明的结合位点、潜在的结合位点、调控的基因等信息。TRANSFAC是真核转录调控DNA序列元件和转录因子数据库,已经有30多年的历史了,其数据量不仅稳步增加,利用它开发的生物信息学工具也越来越多,例如PATCH可用于分析转录因子结合位点的序列相似性,MATCH可用于识别潜在的TFBS。

10ChEA3 -----一个预测多基因转录因子调控网络的数据库

数据库网址:ChEA3

前述讲到转录因子调控预测的时候,通常都是基于单一基因来做的,随着测序技术的成熟,在做完组学数据分析的时候,经常可以得到很多的基因。如果要寻找这么多基因的共同转录因子的话,要怎么办呢?那这个数据库就可以排上用场了。

ChIP-seq的数据库

11Cistrome DB-----人类和小鼠ChIP-seq及染色质开放性信息数据库

数据库网址:Cistrome DB 

Cistrome DB是一个较为全面且公开的人类和小鼠ChIP-seq及开放染色质信息资源数据库。总共收录了30451人和26013小鼠的转录因子、组蛋白修饰和染色质可及性样本,可以说是目前最全面的研究ChIP-seq和DNase-seq的数据库。我们可在Cistrome DB查看转录因子调控的基因,详细的数据注释、分析结果和单个数据集的详细信息(数据的QC情况、motif分析结果、潜在的靶基因预测)、同时还可以在基因组浏览器中查看数据的分布及下载分析的结果文件。

12ENCODE数据库

数据库网址:ENCODE 

ENCODE: Encyclopedia of DNA Elements,DNA元件百科全书

目标:按不同组织,收集人类、小鼠、蠕虫和苍蝇四个物种基因组里面的所有功能元件的解释

所包含的数据如下图所示:

目前的ENCODE数据库通过多种测序数据来反映解读基因组,分别是通过下列实验技术:

Hi-C 来研究三维基因组

ATAC-seq来研究染色质的开放性

ChIP-seq 研究基因的转录调控和组蛋白修饰情况

甲基化芯片来研究甲基化的调控作用

RNA-seq 来研究基因转录组的变化

RIP-seq 研究在转录后RNA与Protein互作的信息

癌症数据库

13TCGA------The Cancer Genome Atlas(癌症基因组图谱)

数据库网址:The Cancer Genome Atlas Program (TCGA) - NCI 

这个数据库收集的信息特别全。

首先,对于研究病种而言,这个数据库包括了33种肿瘤的数据。

其次,数据库检测的数据类型多。对于同一个癌种,我们可以获得这个癌种的: 表达数据、miRNA表达数据、甲基化数据、突变数据和拷贝数数据。如果我们使用GEO数据库检索某一个癌种,同样也可以得到这些相关的数据。但是TCGA数据库珍贵的地方是,这个数据都是出自同一个人的。这样的话,我们就可以研究不同组学之间的交叉反应了。比如突变对于表达的影响、甲基化和表达的关系等等。

第三,TCGA除了包括了不同测序的数据,同时对于每一个纳入的患者还包括了其临床的信息。更难能可贵的是,临床信息当中还包括了预后随访的信息。这个我们就可以来分析以上的测序数据集和临床信息之间的关系了,比如分析基因表达和预后的关系等等。

正常人组织的数据库

14GTEx ------ Genotype-Tissue Expression

数据库网址:Genotype-Tissue Expression Project (GTEx) 

这个数据库和TCGA和ICGC不同的是:TCGA和ICGC是肿瘤相关的数据,而GTEx收集的是正常人身上的组织来进行的测序数据,所以GTEx数据库是正常人的数据。

这个数据库的独特用处,一方面是可以研究正常人不同组织之间的基因表达的区别;另外一方面,就是和TCGA联合使用。由于TCGA重点收集的还是癌症组织的数据,对于其正常的数据收集的相对来说较少,由于正常样本少所以对于差异表达的结果可能就不是很准确。这个时候如果把GTEx的数据纳入进来,这样分析的结果就会更有效更准确。

觉得以上总结有用的话,请不吝点个赞吧。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值