UniRef参考资料库
资料库介绍
Uniprot,参考资料库,是全球蛋白资源数据库UniProt的组成部分。
UniProt参考资料库可以通过序列同一性对最相近的序列进行回并,加快搜索速度。
UniRef对来自UniProtKB的各种数据包括各种剪接变异体进行了分类汇总,还从UniParc中选取了一些数据以求能完整的、没有遗漏的收录所有数据,同时也保证没有冗余数据,该数据库的同一性(identity)分为三个级别:100%、90%和50%。
分类
UniRef里的数据是按照级别来分类的,在UniRef数据库的每一个同一性级别中,每一条序列只会属于其中的一个聚类,这条序列在其它的同一性级别中也只会有一条父集(parent cluster)序列和子集(child cluster)序列。UniRef100数据库将相同的序列数据和亚片断数据整合在一起,使用一个检索进口进行检索。
建立基础
UniRef90数据库建立在UniRef100数据库的基础之上,而UniRef50数据库又是以UniRef90为基础。UniRef100、UniRef90和UniRef50这三个数据库的数据量分别减少10%、40%和70%。每一个聚类记录都包含下列信息:数据来源、蛋白质名称、分类学信息(但只会举一个蛋白质为代表)、聚类下条目数等。UniRef100是目前最全面的非冗余蛋白质序列数据库。UniRef90和UniRef50数据量有所减少是为了能更快地进行序列相似性搜索以减少结果的误差。UniRef现在已广泛用于自动基因组注释、蛋白质家族分类、系统生物学、结构基因组学、系统发生分析、质谱分析等各个研究领域。UniRef中的聚类信息是会随着UniProtKB的更新而同步更新的。