GBPNet: Universal Geometric Representation Learning on Protein Structures
DOI:https://doi.org/10.1145/3534678.3539441
Github:GBPNet/gbpnet/datamodules at main · sarpaykent/GBPNet · GitHub
摘要:
蛋白质3D结构的表示学习对于例如计算蛋白质设计或蛋白质工程的应用是具有挑战性的并且是必不可少的。近年来,几何深度学习在非欧几里得领域取得了巨大成功。尽管蛋白质可以自然地表示为图形,但主要由于在建模复杂的表示和捕捉3D结构建模中的固有相关性方面存在重大挑战,因此它仍然没有得到充分的探索。几个挑战包括:1)在学习过程中提取和保存多级旋转和翻译等变信息是一项挑战。2) 难以开发适当的工具来有效地利用输入的空间表示来捕捉空间维度上的复杂几何图形。3) 难以结合各种几何特征并保留固有的结构关系。在这项工作中,我们引入了几何瓶颈感知器,以及一个一般的SO(3)-等变消息p
数据集
蛋白质结构分类数据集:CPD中使用的数据集是基于蛋白质结构分级分类(CATH)构建的[29]。具有相同CATH拓扑分类的测试集中的所有链都从训练和验证拆分中删除,以避免不平衡的数据集偏差。在实验中,我们在之前的工作[10]之后使用了80%、10%、10%的分割来测试我们的模型。过滤后,训练集中有18024个链,验证集中有609个链,测试集中有