XANTAR____RES-CSDN博客

转载 Autodl使用心得分享

AutoDL算力云以其卓越的性能给我留下了深刻的印象。它提供了强大的计算资源，无论是进行深度学习训练、数据分析还是复杂的科学计算，AutoDL都能提供稳定而高效的支持。我在使用过程中，感受到了它对多任务处理的优化，以及对不同计算需求的灵活适应。AutoDL算力云以其高性能、易用性、灵活的计费模式、卓越的客户服务和强大的数据保护，成为了我推荐的智能计算平台。它采用了先进的安全技术来保护用户的数据，确保了数据的私密性和完整性。它的操作流程经过精心设计，每一步都有清晰的指引，大大减少了学习成本。

2024-11-11 10:28:36 251

原创 ProtSeed | 蛋白的序列结构的等变co-design

在模型训练之前，蛋白质被表示为一个三元组，即residue的one-hot编码、α碳原子的3D坐标，以及frame orientation（就是局部坐标系），然后基于给定的context features，比如残基的一些特性，残基对之间的关系等等，就可以开始使用模型来处理这些信息，设计新的蛋白质。接下来就是本文的关键，本文提出名叫trigonometry-aware context encoder和joint sequence-structure decoder。

2024-01-20 10:43:23 1165

原创 FAENet | 面向材料建模的EGNN模型

本文提出了一种可以替代传统summetry-preserving的GNN模型的方法，即FAENet，其基于FA精细地设计data augmentation方法来保留symmetries，使得GNN模型设计更加灵活化，并且在多个数据集上表现优于SOTA方法。FAENet的idea思路主要基于Puny et al.(2022)等人提出的框架Frame averaging（FA）结合代数中的群论、群表示论等知识，推得知其可以使GNN在设计时变得更加灵活，不需要刻意为保留等变性质而设计。

2024-01-15 10:24:23 672 1

原创 3D Infomax | 改进GNN + 分子性质预测

首先，可以细看下面的图，其中从对比的角度来分析了之前的GNN方法和本文提出的GNN方法的思路。3D Infomax的大致思路即，使用一个2D GNN学习序列特征，和一个3D GNN学习结构特征，然后学习两个模型输出的feature vector之间的mutation information（MI）；其中，3D分子图结构是在许多任务中必需的一类数据，但目前的3D数据远远不够。因此，本文提出使用已知的3D分子数据库来预训练一个模型，基于其中的2D分子图，来推测其几何特征。

2023-10-18 21:14:27 555 1

原创 ATSE | 基于GNN和attention机制的肽毒性预测

首先，使用1-D Weisfeiler-Lehman算法（1-WL）为各点做label，具体操作是：在第0轮，先给各点和边初始化label值，然后每一轮根据上轮的点和边的label更新次轮的点label，然后根据边连接的两点更新边label，可结合下图理解，然后，通过word embedding将得到的输出编码成矩阵Xn,m，n即点个数，并输入到GNN layer中，经过k层GNN layer（如下图，Wgnn为权重矩阵，A为邻接矩阵），输出学习到结构信息的矩阵X。本文根据模型任务构建了新的数据集。

2023-10-05 09:46:05 764

原创人类肠道微生物组+深度学习——＞AMP预测

模型的基础结构使用了前人文章中的NNM模型（neural network model），然后通过将核心层分别替换为LSTM、Attention和BERT，并各自使用独立的数据集训练得到预测模型（简单起见，直接记为LSTM、ATT和BERT），进一步使用平衡（balanced）数据集训练得到（b_LSTM和b_ATT）。实验发现荧光强度会随着AMP浓度的增加而增强，进一步的剂量依赖的荧光强度测试说明了c_AMP1043破坏了细胞外膜的完整性，甚至能够破坏细胞壁，以及一些其他指标的测试发现其能破坏膜电位。

2023-08-02 14:39:33 858

原创【大模型多肽发现、学习笔记】使用预训练语言模型做embedding的AMP预测方法——LMPred

基于目前AMP是潜在的癌症治疗和高血压治疗的新药，同时新AMP的发现能够缓解耐药细菌问题，而常规的湿实验周期长、开销大，因此开发一种计算方法是解决这一问题的有效方式。本文作者提出一种新的AMP预测方法——LMPred，它由一个预训练好的语言模型（用于embedding）和CNN分类器（用于预测）组成，且在不同的数据集上取得了很高的预测精确度，同时优于目前最优秀的分类模型。通过使用预训练的LM模型embedding，最终使得分类任务优于目前已知的最优秀的方法。

2023-07-23 09:32:26 548

原创【大模型多肽发现、学习笔记】基于序列多维特征嵌入的AMP预测方法

AMP是生物体内产生的具有杀菌活性的碱性物质，天然的AMPs还具有如伤口愈合、抗氧化和免疫调节作用等重要活性，AMPs被誉为是抗生素最好的替代品。本文作者提出一种新的深度学习方法来预测AMPs，其可以高精度的分类出10~200长度的AMP和non-AMP，同时结果表明，在不降低其他指标的情况下此模型依旧可以在独立数据验证方面的精度比目前最好的模型还高1.05%。可以看出，不同的encoding方法都有各自的优点和各自的缺点，本文通过结合它们来互相弥补达到更好的预测效果。模型结构如上图所示。

2023-07-21 10:26:01 482 1

原创【强相关文献】CSM-Toxin，网站，可预测蛋白毒性

本文的模型主要基于ProteinBERT。然而，预测它们的毒性的方法都相对较慢、且效果不好。于是，文献的作者提出了一种基于深度学习的模型，来快速的预测这些药物的毒性，同时由于市面上没有很好的数据集，模型训练所使用的数据集是作者自己建立的，其包含的肽和蛋白数据都是高质量的且实验验证过的。本文建立的个性化数据集的数据来源于UniProt，通过如下图中所示的使用一些query以及使用CD-HIT技术来筛选所需要的数据，最终得到2475个有toxic属性的和214,740个non-toxic属性的序列数据。

2023-07-20 08:57:35 759 1

原创【大模型多肽发现、学习笔记】AMP识别及多活性预测——TransImbAMP

pre-trained过程是基于Pfam dataset数据集，以15%的部分被掩盖（masked token）序列和剩余的未被掩盖（unmasked token）序列来预训练backbone，然后还使用未标记的序列数据来提高backbone对氨基酸序列的预测能力。本文的数据集主要由AMP和non-AMP组成。获得数据集后，为了消除AMP和non-AMP数据不平衡问题，使用CD-HIT以40%为阈值筛选了non-AMP数据，最终获得由6460 AMPs和15921 non-AMPs组成的数据集。

2023-06-07 20:27:36 1925 1

原创【大模型多肽发现、学习笔记】AI4ACP

读者可以使用AI4ACP轻松实现对未知肽的预先评估，来选择合适的肽的测试它们的抗癌特性。本文使用的是PC6蛋白质编码方法，PC6编码方法从蛋白质的物理化学特性的6个子集中分别选取一个特性，其中4个的选择是基于AC方法中的7个特性。在使用Charoenkwan等人的工作中使用的替代数据集作为训练集时，AI4ACP的表现略高于AntiCP2.0，但在使用本文的数据集来训练时，AntiCP2.0在Accuracy、Specificity、Sensitivity和MCC上都是表现最好的。

2023-06-03 19:43:16 789

原创【大模型多肽发现、学习笔记】AMPlify——预测AMP的深度学习工具

两个模型都是基于基础的AMPlify模型，其结构如下图所示。本文作者推出了一种基于深度学习的模型，AMPlify，其在预测AMP任务中表现突出，而且优于现有的SOTA算法。在本文的工作中，作者训练了两个模型，一种是基于平衡数据集的，而另一种是基于非平衡数据集的。其次，本文收集的non-AMP数据存在一定瑕疵，因为虽然工作中是按关键词在Swiss-Prot数据库中进行筛选，但仍有一小部分non-AMP数据是具有Antimicrobial特性的，所以作者提出可以在训练模型任务中加入噪声进一步优化模型。

2023-05-23 16:16:16 624 1

原创【大模型多肽发现、学习笔记】AI4AMP——预测AMP的深度学习工具

对于non-AMP数据，其主要由真实世界中的肽（取自UniProt database）和人工合成的肽序列组成，最终也是获得了6623个肽序列。其核心是对每一个氨基酸的相关物理化学特性进行词嵌入（word embedding），得到一个矩阵，它每一行代表一个氨基酸的6个物理化学特征的值（经过归一化处理后的）。本文工作使用的评估指标为Accuracy、Precision、Sensitivity、Specificity、F1 score和MCC（Matthew correlation coefficient）。

2023-05-22 18:41:28 884 1

原创【大模型多肽发现、杂谈】AMPs研究的一些领域知识

肽的氨基酸特征就是肽的序列，即将每个氨基酸表示成一个字符后形成的序列。通常不直接使用序列作为输入（除一些基于RNN的方法），而是使用embedding layer提取有代表性的特征。将序列数据编码成数值信息的方法主要分为两类：基于肽特征的和基于氨基酸特征的。它学习到的每一个embedding都是输入序列的函数，具体地说，它从不同上下文中获取字符使用方式并且根据不同上下文中的相同字符来产生其不同的表征。一、基于肽特征的方法又进一步分为两种，即基于序列特征的和基于结构特征的。二、基于氨基酸特征的方法。

2023-05-21 17:01:14 543 1

原创【大模型多肽发现、学习笔记】使用深度强化学习对新肽测序

本文工作的主要内容是基于给定质谱生成肽序列的肽测序任务，作者提出了一种基于生成强化学习的新的肽序列生成方法。其中为了生成正确的序列，还加入了一个policy（策略）机制和value（价值）机制。Mann实验室的Mann-Human和Mann-Mouse数据集，Gygi实验室的Gygi-Human数据集，Dong实验室的Dong-Ecoli数据集，Xu实验室的Xu-Yeast数据集。本文工作的任务定义为基于给定的质谱，自动生成肽序列。训练过程由监督学习阶段和强化学习阶段两阶段组成。

2023-05-17 18:16:41 337 1

原创【大模型多肽发现、学习笔记】针对病毒感染的肽药物发现

因此，本文提出一种计算方法来识别新的AVP，方法名为Deep-AVPpred，其使用转移学习（transfer learning）理念结合深度学习算法来从蛋白质序列中发现AVPs。同时，与目前的SOTA算法进行对比，算法有AVPcompo、iAMPpred、Meta-iAVP、AVPIden、ENNAVIA-B。在本文工作中，我们从AVPpred、DBAASP、DRAMP、SATPDB、StarPep中收集10203种AVPs，再从AVPpred、Swiss-Prot中收集8792种non-AVPs。

2023-05-14 16:18:35 413 1

原创【大模型多肽发现、学习笔记】CNN模型——对AMP序列的K-mer分析

本次工作使用了其中的2342条动物、352条植物和349条细菌类的AMP序列，据统计，平均AMP序列长度为33.30个氨基酸，标准偏差为22.01个氨基酸。训练集：验证集=80：20，在经历10个epochs的实验测试可得2-mers、3-mers、4-mers分别在3、3、2个epochs后停止训练模型可以防止过拟合（overfitting）。的方法，其把这些英文表示的氨基酸序列切分成K-mers（K=2,3,4），来作为模型的输入预测特征，最终对来自三个物种（动物、植物和细菌）的AMP序列做分类。

2023-05-14 10:58:28 451 2

XANTAR____RES的博客