最近开启了新的课题是关于多肽的,俗话说磨刀不误,收集质量好的数据是建立模型的第一步。
许多以前的研究已经指出,严格的数据集对于精确估计预测模型的质量至关重要。
特别是,序列一致性(sequence identity)别对数据集的质量有很大的影响。如果序列具有较高的序列一致性,则很容易产生偏差估计。换句话说,较低的序列一致性意味着更高的数据集质量。
下面列出常见的多肽数据库
这篇知乎文章有详细的介绍 多肽数据库的小总结 - 知乎 (zhihu.com)
信号肽数据库: Signal Peptide Database
抗菌活性和肽结构数据库: Antimicrobial Peptide Database - DBAASP
抗菌肽数据库: Antimicrobial Peptide Database (unmc.edu)
细胞穿透肽数据库: CPPsite 2.0: A Database of Cell Penetrating Peptides (osdd.net)
肽抗原数据库:Antigenic Peptides-GenScript
治疗肽数据库: THPdb: A Database of FDA approved Therapeutic Peptides and Proteins (osdd.net)