【论文阅读】ProtGPT2 is a deep unsupervised language model for protein design

GUANYX~

已于 2024-08-26 21:56:30 修改

阅读量468

点赞数 4

文章标签：论文阅读语言模型人工智能

于 2024-08-21 17:20:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gyx1549624673/article/details/141397253

版权

论文阅读：ProtGPT2 is a deep unsupervised language model for protein design （2022）

1、背景

研究问题：这篇文章要解决的问题是如何利用生成模型进行蛋白质工程，以解决合成生物学、医学和材料科学中的基本问题。具体来说，作者将蛋白质工程视为一个无监督的序列生成问题，以便利用缺乏昂贵结构注释的蛋白质序列的指数增长集。
研究难点：该问题的研究难点包括：获取蛋白质的三维结构信息昂贵且耗时；原始氨基酸序列数据量远大于具有结构注释的序列数据；现有的蛋白质工程实验技术仍然依赖于启发式和随机突变来选择初始序列。
相关工作：最近的研究（如Alley et al., 2019; Rives et al., 2019; Rao et al., 2019）已经开始利用大规模原始蛋白质序列，通过适应自然语言处理（NLP）中的表示学习技术来进行蛋白质性质分类。然而，尚未有尝试将最先进的文本生成方法（如Radford et al., 2019）应用于蛋白质工程。

2、研究方法

这篇论文提出了ProGen，一种用于可控蛋白质生成的条件语言模型。具体来说，

条件语言模型：ProGen是一个12亿参数的条件语言模型，训练在包含2.8亿个蛋白质序列的数据集上，这些序列附带了分类标签，如分类学、功能性和位置信息。通过这些标签，ProGen提供了一种新的蛋白质生成方

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。