【论文阅读】Simulating 500 million years of evolution with a language model

Simulating 500 million years of evolution with a language model

1、概述

展示了语言模型在蛋白质设计和进化模拟方面的能力。通过对 ESM3 模型的研究,发现其能够生成与自然蛋白质差异较大且具有功能的新蛋白质,如新型绿色荧光蛋白(GFP),表明语言模型可以达到自然进化未探索的蛋白质设计空间,为蛋白质工程和进化研究提供了新的途径和见解。

2、蛋白质与语言模型的背景知识

2.1 蛋白质的进化与特性

蛋白质的的自然进化:经过数十亿年自然进化形成,其模式如同在一个空间中,每个蛋白质通过突变等变化与其他蛋白质相连,进化路径受系统功能维持约束,随机突变和选择塑造其结构和功能。
基因测序调查显示蛋白质序列和结构的多样性,暗示存在潜在的蛋白质生物学语言,可以通过语言模型理解
荧光蛋白特性:GFP家族能形成荧光发色团,无需辅助因子或底物,其独特结构(十一链 β 桶和中心螺旋)使得发色团形成,该过程对突变敏感,少量随机突变即可导致荧光消失,在生物技术中是重要工具。

2.2 蛋白质语言模型的发展

已有多种蛋白质序列语言模型被开发和评估,发现其表示能够反映蛋白质结构和功能,且在无监督学习中学习到,随规模扩大性能提升,如ESM3通过对离散标记的处理和训练,在表示学习和生成应用中取得改进

3、ESM3模型的架构和训练

3.1 架构

3.1.1 总体概述

ESM3是多模态生成模型,对序列、结构和功能等多种模态进行推理,输入通过标记化处理,经过transformer和几何注意力等处理,输出可通过解码器转换为具体形式,如结构标记可解码为原子坐标。
模型采用预训练任务学习蛋白质的深层结构和生物学特性,以解决下一个标记预测任务,从而实现对蛋白质序列、结构和功能的联合建模和生成。

3.1.1.2 具体组成

标记化:所有channel(序列、结构、二级结构、SASA、功能注释、残基注释等等)都表示为标记序列,每个氨基酸位置有特定标记,如序列用29种标记(20种氨基酸+特殊标记),结构标记有4096个+4个特殊标记,功能标记通过对关键词的处理得到等。
输入与前向传播:ESM3能接受多种输入channel,如结构坐标,二级结构标签等,通过嵌入和求和等操作处理后输入transformer块,然后经过回归头得到各个channel的预测结果。
transformer:基于transformer架构改进,采用Pre-LN、旋转嵌入和SwiGLU等,核心修改是在网络第一层插入集和注意力子层,不同规模的模型(ESm3-small、medium、large)有不同的层数和参数设置。
几何注意力:通过处理骨架框架和原子坐标信息,以旋转和平移不变的方式整合几何信息想,实现对蛋白质局部骨架几何的推理,在结构标记编码器和ESM3第一层中使用。
结构标记器:用VQ-VAE编码器将每个残基与一个结构标

Here is an example MATLAB code for simulating a 2D FDTD problem: ``` % Define simulation parameters dx = 0.01; % Spatial step size dt = 0.0001; % Time step size tmax = 1; % Maximum simulation time L = 1; % Length of simulation domain W = 1; % Width of simulation domain x = 0:dx:L; % Spatial grid y = 0:dx:W; T = 0:dt:tmax; % Time grid c = 1; % Wave speed % Define source waveform f0 = 1e9; % Center frequency of Gaussian pulse t0 = 0.5e-9; % Width of Gaussian pulse A = 1; % Amplitude of Gaussian pulse source = A*exp(-((T-t0).^2)/(2*t0^2)).*sin(2*pi*f0*(T-t0)); % Initialize electric and magnetic fields Ez = zeros(length(x),length(y),length(T)); Hy = zeros(length(x),length(y),length(T)); % Main FDTD loop for n = 1:length(T) % Update magnetic field for i = 1:length(x)-1 for j = 1:length(y)-1 Hy(i,j,n+1) = Hy(i,j,n) + dt/(mu*dx)*(Ez(i,j+1,n) - Ez(i,j,n) - Ez(i+1,j,n) + Ez(i+1,j+1,n)); end end % Update electric field for i = 2:length(x)-1 for j = 2:length(y)-1 Ez(i,j,n+1) = Ez(i,j,n) + dt/(eps*dx)*(Hy(i,j,n+1) - Hy(i,j-1,n+1) - Hy(i-1,j,n+1) + Hy(i-1,j-1,n+1)); end end % Add source to electric field Ez(1,round(length(y)/2),n+1) = Ez(1,round(length(y)/2),n+1) + source(n); end % Plot results figure; for n = 1:length(T) surf(x,y,Ez(:,:,n)'); shading interp; xlabel('x'); ylabel('y'); zlabel('Ez'); title(['Time = ',num2str(T(n))]); axis([0 L 0 W -1 1]); pause(0.01); end ``` This code simulates a 2D FDTD problem in a rectangular domain with a Gaussian pulse source at one edge. The electric and magnetic fields are updated using the FDTD method, and the results are plotted as a 3D surface over time.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值