uniref100,uniref90,uniref50是蛋白质数据库
uniref100是包含所有的已经验证的蛋白质的序列
UniRef90基于UniRef100构建,而UniRef50基于UniRef90构建.
UniRef90和UniRef50分别使数据库大小减少了约58%和79%,从而显着加快了序列相似性搜
esm:训练使用了ur50和ur90
下载地址:
https://www.uniprot.org/downloads
uniref50:9gb
https://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref50/uniref50.fasta.gz
一文极速读懂 Uniprot 蛋白质数据库
https://zhuanlan.zhihu.com/p/108602863