山东大学2019级软件工程应用与实践——基于人工智能的多肽药物分析问题（十三）

Haws001

已于 2022-02-22 21:28:38 修改

阅读量3.1k

点赞数 12

分类专栏：山东大学2019级软件工程应用与实践文章标签：人工智能机器学习深度学习

于 2021-12-24 23:55:12 首次发布

本文链接：https://blog.csdn.net/ChloeS0/article/details/122136928

版权

山东大学2019级软件工程应用与实践专栏收录该内容

13 篇文章 4 订阅

订阅专栏

2021SC@SDUSC

基于人工智能的多肽药物分析问题

主题：蛋白质预训练模型（7）

原始下游预测

在这里插入图片描述

二级结构预测

在这里插入图片描述

与其他蛋白质语言模型的对比

在这里插入图片描述
关于ProtT5-XL-UniRef50（称为ProtT5-XL-U50）的重要注意事项：所有性能仅使用从底层T5模型的编码器侧提取的嵌入件进行测量，如下所述。此外，还以半精度模式(model.half())进行了实验，以加快嵌入生成的速度。以半精度运行时，在任何实验中均未观察到性能下降。

论文阅读

蛋白质语言模型到达上限了吗？

将NLP技术应用到蛋白质中，为以一种自我监督、数据驱动的方式从蛋白质中提取信息提供了新的机会。新的蛋白质表达可能补充现有的解决方案，当将进化信息和机器学习结合起来时最为成功。在这里，我们首次展示了从蛋白质LMs输入到相对简单的监督学习模型的嵌入可以在不使用EI和不太优化监督训练管道的情况下达到类似的性能水平。然而，与使用进化信息的传统模型相比，蛋白质LM的推理速度的提高十分显著，以至于30年来首次在商品硬件上实现大规模预测。例如，性能最好的型号ProtT5-XL-U50可以在Nvidia TitanV上运行，vRAM为12GB(详情请参阅方法)。

然而，考虑到这里描述的实验和在之前的工作中，我们可能会期望蛋白质LM在使用masked语言建模(或自回归前训练)时能够学习的上限。虽然这项工作明确讨论了达到这一极限的可能性，但我们不能最终提供一个答案。我们可以得出三个发现。
(1)更少噪声和冗余语料库(如UniRef50)在更大但噪声和冗余语料库(如BFD)上得到改善。
(2)在资源有限的情况下，最重要的是将资源用于足够长的训练，因为在训练前看到的样本数量与下游任务的预测性能相关。最终，这似乎源于足够的模型大小和样本吞吐量之间的权衡。
(3)双向模型优于单向模型。然而，考虑到蛋白质LM在回顾这项工作的过程中所取得的进展，我们还没有看到任何证据表明蛋白质LM达到了极限。

以下问题的答案可能会推动现状。

(1) BERT或Albert提供的辅助任务，如下一句或句子顺序预测，是否适合蛋白质序列?一个建议可能是使用结构信息或进化关系。

(2)变压器蛋白LM训练的效率是否可以通过稀疏变压器或Reformer模型最近引入的局部敏感哈希(LSH)或线性变压器最近的工作来提高?

(3)为了获得更好的结果，哪些数据集应该最优地使用预处理、简化和训练批量抽样?

(4)将受监督的培训管道调整到特定的任务，会有多大的改进?
我们将二级结构或定位预测更多地作为展示蛋白质LM成功的代理，而不是作为一个独立的末端。

(5) EI和AI的结合会带来未来最好的蛋白质预测，还是单蛋白质预测的优势(速度、精度)胜出?
事实上，单蛋白质预测也有更精确的优势，因为它们不提供蛋白质家族的隐含平均值。

总的来说，我们的结果表明，将用于训练蛋白质LM的HPC解决方案与随后的监督预测方法的训练相结合，可以扩大到该领域迄今为止使用的最大数据集。只有结合这些不同的结构域，我们才能证明蛋白质LM可以达到与最先进的结合EI和AI的方法相同的性能，而无需利用多重序列比对。

结论

在这里，我们引入了许多新的蛋白质语言模型(LM)，并证明从最后的LM层提取的嵌入捕获了与蛋白质结构和功能相关的约束。

尽管没有使用有史以来最大的蛋白质LMs数据库(BFD)，也不是非常大的模型产生了信息量最大的嵌入，但在相当多的多样性上进行足够长的预训练有一定效果，而且最近的LMs表现最好。
使用嵌入作为相对较小的CNN/FNN模型的单独输入，无需太多优化，就可以获得在预测二级结构、定位和将蛋白质分类为膜/其他方面具有竞争力的方法。
事实上，基于LM嵌入输入的小型监督解决方案第一次达到了对基于多序列对齐(MSA)输入的最新(SOA)方法的挑战的性能水平。相比之下，本文所介绍的模型从未使用过MSAs。当常规地将基于嵌入的蛋白质预测应用于大型数据集时，这可以节省巨大的费用，但它也为蛋白质特异性预测而不是家族平均预测开辟了一条道路。
最终，将三个不同但互补的领域(HPC、NLP和计算生物学)的优势结合起来，得到了进展。自我监督的预训练结合迁移学习挖掘了未标记数据的金矿，为现有问题的全新视角(和解决方案)打开了大门。

Haws001

关注

12
点赞
踩
18

收藏

觉得还不错? 一键收藏
2
评论
山东大学2019级软件工程应用与实践——基于人工智能的多肽药物分析问题（十三）

2021SC@SDUSC基于人工智能的多肽药物分析问题主题：蛋白质预训练模型（7）原始下游预测二级结构预测与其他蛋白质语言模型的对比关于ProtT5-XL-UniRef50（称为ProtT5-XL-U50）的重要注意事项：所有性能仅使用从底层T5模型的编码器侧提取的嵌入件进行测量，如下所述。此外，还以半精度模式(model.half())进行了实验，以加快嵌入生成的速度。以半精度运行时，在任何实验中均未观察到性能下降。论文阅读蛋白质语言模型到达上限了吗？将NLP技术应用到蛋白质中，为
复制链接

扫一扫