一.生物数据库
1.文献数据库:PubMed(主要是生物医学文献)
2.一级核酸数据库:NCBI,ENA,DDBJ
INSDC:由GenBank(美国)、ENA(欧洲)、DDBJ (日本)三大核苷酸数据库组成的联合核苷酸数据库。
序列的FASTA格式:第一行——大于号加名称或其他注释
第二行以后——序列,每行60个字母
3.一级蛋白质数据库(都是通过实验直接测定的)
蛋白质序列数据库:swissport,TrEMBL,PIR,UniPort(前三个数据库的合成)
蛋白质结构数据库:PDB
4.二级蛋白质数据库
Pfam(蛋白质结构域家族的集合)
PS:结构域——蛋白质一般是由一个或多个功能区域组成,这些功能区域通常称为结构域。Like胞外域、跨膜区、胞内域。通过探明未知功能蛋白质上的结构域,可以大致推测出蛋白质的功能。
CATH
SCOP2
二.序列比较及相似性
1.序列表示
2.序列的相似性
数据库中的序列相似性搜索——相似的序列可以推测出相似的结构,相似的结构可以推测出相似的功能。
用两个指标来描述序列的相似性——一致度和相似度。