扩散模型新应用——微软推出蛋白质生成框架EvoDiff-CSDN博客

本文链接：https://blog.csdn.net/2401_85373898/article/details/140081932

最近，微软推出了一个名为EvoDiff的通用框架，据称它可以根据蛋白质序列生成“高保真度”和“多样性”的蛋白质。

这项技术的意义非凡，因为蛋白质是构成我们身体的疾病的基本组成部分。通过研究蛋白质，我们可以揭示疾病的机制，并找到减缓或逆转疾病的方法。

而通过创造蛋白质，我们可以开发全新的药物和治疗方法。

目前，设计蛋白质的过程非常复杂且昂贵，但EvoDiff的出现可能会改变这一现状。它不需要目标蛋白质的结构信息，从而省去了最繁琐的步骤。

这项技术有望应用于新型治疗药物和药物传递方法的酶的创造，以及用于工业化学反应的新型酶的开发。

蛋白质生成成本高昂

从计算和人力资源的角度来看，目前在实验室设计蛋白质的过程成本高昂。

这个过程涉及两个关键步骤。

首先，需要找到一种蛋白质结构，这种结构可以在体内执行特定的任务。
其次，需要找到一种可能“折叠”到该结构中的蛋白质序列，也就是构成蛋白质的氨基酸序列。

只有当蛋白质正确折叠成三维形状时，它才能发挥其预期功能。这个过程需要大量的计算和人力资源，因此成本很高。

但有时候我们不必把事情搞得太复杂。

最近，微软推出了一个名为EvoDiff的通用框架。微软表示这个框架可以只在给定蛋白质序列的情况下，生成高保真、多样化的蛋白质。

与其他蛋白质生成框架不同的是，EvoDiff不需要任何关于目标蛋白质结构的信息，这样就省去了通常最费力的步骤。

产生蛋白质的过程

▲产生蛋白质的过程

EvoDiff框架

EvoDiff框架的核心是一个6.4亿参数的模型，该模型是通过使用来自不同物种和功能类别的蛋白质数据进行训练而得到的。

训练模型所使用的数据来自于序列比对的OpenFold数据集以及UniRef50和UniProt的数据子集。

UniProt是由UniProt联盟维护的蛋白质序列和功能信息数据库。通过使用这些数据，EvoDiff框架能够训练出一个强大的模型，用于生成蛋白质等任务。

EvoDiff本质上是一个扩散模型，它的架构类似于一些现代图像生成模型，比如Stable Diffusion 和DALL-E 2。EvoDiff的目标是从几乎完全由噪音组成的起始蛋白质中逐渐减去噪音，逐步复原蛋白质序列。

扩散模型是一种在图像生成领域以外越来越广泛应用的技术。它不仅可以用于设计新型蛋白质，例如EvoDiff，还可以用于创作音乐甚至合成语音。这种模型的应用范围正在不断扩大。

不同于传统的蛋白质生成框架，EvoDiff不是基于蛋白质的结构，而是基于蛋白质的序列空间来设计蛋白质。这意味着它可以合成一种特殊的蛋白质，即无序蛋白质，这些蛋白质最终不会折叠成具有特定三维结构的形态。

尽管如此，这些无序蛋白质在生物学和疾病中仍然扮演着重要的角色。它们可以增强或降低其他蛋白质的活性，从而对生物体的功能产生影响。这表明无序蛋白质在细胞内具有多种功能，并且对于我们理解生物体的生物过程以及疾病的发生机制非常重要。

EvoDiff将推动蛋白质工程的发展

EvoDiff的另一位作者、微软高级研究员Ava Amini强调了根据序列生成蛋白质的重要性，并指出这一方法具有通用性、规模和模块性的优势。

Ava Amini还提到他们的扩散框架使他们能够控制蛋白质的设计，以实现特定的功能目标。这一框架为他们提供了生成蛋白质的能力，并且能够控制蛋白质的设计，使其具备特定的功能。

Amini认为，EvoDiff不仅可以创造新的蛋白质，还可以填补现有蛋白质设计中的“空白”。例如，如果蛋白质的一部分与另一种蛋白质结合，该模型可以在该部分周围生成符合一系列标准的蛋白质氨基酸序列。这意味着EvoDiff可以帮助科学家们设计出更多种类的蛋白质，从而拓宽了蛋白质的应用领域。

微软高级研究员Kevin Yang表示，EvoDiff将会开源。这个开源工具可以用来制造酶，用于新疗法和药物递送方法，以及用于工业化学反应的新酶。

该团队预计EvoDiff将推动蛋白质工程的发展，从传统的结构-功能范式扩展到可编程、序列优先的设计。

他们通过EvoDiff的实践证明了一个重要观点，即蛋白质生成不一定需要依赖特定的结构，只使用蛋白质序列本身也可以发挥有效的作用。这意味着他们可以通过可控地设计新的蛋白质来实现更多的应用。

但目前需要注意的是，EvoDiff背后的研究尚未经过同行评审——至少现在还没有。参与该项目的微软数据科学家Sarah Alamdari承认，在该框架投入商业使用之前，还有更多的扩展工作要做。

下一步计划

目前EvoDiff模型只有6.4亿个参数。如果将参数扩展到数十亿个，生成质量可能会更好。不仅如此，该团队还希望将EvoDiff应用于文本、化学信息或其他方式，以定制需要的功能。

EvoDiff团队还计划在实验室中测试他们模型产生的蛋白质，以确定这些蛋白质是否可行。如果测试结果证明可行，他们将开始开发下一代框架。

如何学习AI大模型？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

😝有需要的小伙伴，可以VＸ扫描下方二维码免费领取🆓

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。（全套教程文末领取哈）

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程文末领取哈）

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（全套教程文末领取哈）

在这里插入图片描述
👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

扩散模型新应用——微软推出蛋白质生成框架EvoDiff

蛋白质生成成本高昂

EvoDiff框架

EvoDiff将推动蛋白质工程的发展

下一步计划

如何学习AI大模型 ？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

👉1.大模型入门学习思维导图👈

👉2.AGI大模型配套视频👈

👉3.大模型实际应用报告合集👈

👉4.大模型落地应用案例PPT👈

👉5.大模型经典学习电子书👈

👉6.大模型面试题&答案👈

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

如何学习AI大模型？

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】