机器学习在分子模拟中的应用_qm9数据集(1),顺利收获Offer

本文介绍了机器学习在分子模拟中的应用,重点是DeepMind的AlphaFold在解决蛋白质结构问题中的突破,以及相关工具TorchMD、DeepPotential和TorchProtein。AlphaFold通过强大的计算资源和深度学习技术,成功预测蛋白质结构,对学术界产生了深远影响。TorchMD是一个基于PyTorch的分子动力学框架,用于机器学习增强的生物分子模拟,而DeepPotential和TorchProtein分别致力于发展数据驱动的势能模型和蛋白质机器学习平台,推动了蛋白质研究的进步。
摘要由CSDN通过智能技术生成

先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7

深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年最新Golang全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上Go语言开发知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

如果你需要这些资料,可以添加V获取:vip1024b (备注go)
img

正文

第八位牛津大学博士Russ Bates,医学图像处理,第九位剑桥大学MEng,Augustin Žídek,深度增强学习相关。第十位Alex Bridgland,牛津大学计算机博士,资料不详,alphafold一代作者之一。

第十一位Clemens Meyer,世界顶尖商学院巴黎高商毕业,且有了十年以上管理经验的资深产品经理。这个是我没有想到的。。。

img

img

第十二位Simon Kohl,KIT毕业物理硕士,CS博士,alphafold一代作者。

第十三位Anna Potapenko,俄罗斯国立高等经济大学CS博士,自然语言处理相关,

img

这篇文章在我能够理解的范围内,瞎猜一个,transformer? long-range sequence?部署了transformer在提取序列attention当做input?(赛前猜的,猜对了一般,用了transformer直接end2end了)

img

第十四位Andrew Ballard, 计算物理学家,2015年加入deepmind,用过副本交换,研究过非平衡态系统,可能可以用来解决后面蛋白质结构refinement的问题?

img

第十五位Angew Cowie,参与开发了Acme!DRL!

第十六位Bernardino Romera Paredes UCL CS master。第十七位Stanislav Nikolov,MIT MEng master。第十八位, Rishub Jain,CMU CS master。第十九位,Demis Hassabis 大boss。

小结:这么多看下来,这19位真是兵强马壮,John Jumper又是为这个方法而生的,同时还引入了一个产品经理来维护整个团队,这些都是学术界不大可能拥有的东西。18年的alphafold我们还可以argue,其实他是集学术界大成者,整体创新性并没有那么强,起码大家都很容易follow,这次的alphafold2我要下个暴论,是真正意义上的应用了AI来解决蛋白质折叠问题!

2。计算资源

我之前对计算资源有点不屑一顾,不就是128个TPU么,几百万就搞定了,能拿的出这钱的单位多了。但是我现在想通一个问题,就是算法的迭代。研究人员在研究的时候要有无数次的尝试,如果训练模型不能快速的给出反馈的话,科研的进度就会被大大拖累。有大量的计算资源,不仅仅是提高了模型的复杂度而已,而是提高了研发人员的速度。就好比以前我们做gremlin开发的时候,部署在matlab框架下要一天时间,重新部署在tensorflow下几秒钟就够了,于是我就可以尝试各种奇怪的idea了。速度同样可以带来大量的创新。

所以我相信,128个TPU只是最终模型训练的结果,在研发过程中,肯定调用了更多的你难以想象的计算资源!但是这也没有完,Baker团队的trrosetta用非常轻量的模型就超过了18年的alphafold,所以在未来的几年,对问题理解的更好,学术界的平民版alphafold我相信也很快会出来的。

开源代码 https://github.com/deepmind/alphafold

如何在Colab上使用Alphafold2 进行结构预测

其他待补充,也欢迎留言讨论。

学术问题:

蛋白质折叠问题解决了没有?结构基因组学时代来临了没有?在这个技术下面,哪些目前的技术会被替代?结构生物学的空间在哪里?哪些有瓶颈的技术会得到突破,比如和蛋白质组学联合解释数据?

基本解决了,从结构生物学的角度讲,基因平等,然而人类总是挑一些可能比较有意思的蛋白去解析结构,alphafold2预测的精度足够高,一些犄角旮旯的蛋白结构可以得到大量的补充。而且在序列数据爆炸的情况下,可以得到大量可靠的预测模型是非常有意义的。按Nature的一篇评论,人们可以花更多的时间思考,花更少的时间拿移液枪了。

但是Alphafold也提了,氨基酸侧链的精确位置仍然是一个挑战,还有一些比如PPI,DNA,RNA,小分子配体的结合还没有解决。制药行业对侧链的精确度是非常之高的。

机制问题:

学术界干了几十年没解决的蛋白质折叠问题,deepmind为什么做的这么好,仅仅是因为资源丰富吗?

除了算法强之外,alphafold还汇集了几个领域的大佬,甚至请了一个专业的产品经理,学术界的合作是否能如此的紧密?目前的学术运营框架下合作难度多大?

学术界是不是在搞跳高运动,每年创新1cm?

社会问题:

对学术界有什么影响?

网红科学家穆罕穆德,这对这个领域是破坏性的,这个领域的核心问题已经被解决了,我想很多人都会离开这个领域了吧。(图片来源

img图片来自nature

四、TorchMD

引言

分子动力学模拟依靠经验的势函数模型来描述分子的相互作用。利用由机器学习方法衍生的数据驱动模型,可以提高这些势函数的准确性和可转移性。本文提出了一种称为TorchMD的在传统模拟上增加了机器学习的分子模拟框架。它将所有的势函数,包括键长、键角、二面角、范德华和库仑静电相互作用都表示为PyTorch的阵列和运算。经验证,TorchMD能够学习和模拟神经网络,并应用于AMBER全原子力场模拟、从头算模拟、蛋白质折叠的粗粒化模型的模拟中。

背景

分子动力学模拟(MD)可以较为准确的模拟分子的运动,通常分子力场包含所模拟的各类原子及溶剂分子,并通过键长键角等来表示其作用力,在模拟分子构象、折叠等方面具有较高的准确性。但分子动力学模拟存在两个弊端,首先分子力场计算非常耗时,且参数拟合非常复杂。其次,分子动力学模拟很难在大的生物尺度上进行模拟。随着深度神经网络(DNN)体系结构的出现,机器学习(ML)变得特有吸引力,它使定义任意复杂的函数及其导数成为可能。DNNs提供了一种非常有前途的方法,在从更精确的方法获得的大规模数据库上进行训练后,在MD模拟中嵌入快速而准确的势能函数。DNNs的一个特别有趣的特征是它们可以学习多体相互作用,并预测系统的力和能量。TorchMD是一个从头构建的分子动力学代码,利用ML库PyTorch的语言。通过将MD中使用的键和非键扩展到任意复杂的DNN, TorchMD实现了快速的机器学习。TorchMD的两个关键点是,它是用PyTorch编写的,很容易集成其他ML PyTorch模型,如从头算神经网络(NNPs)和机器学习粗粒化。TorchMD在Lennard-Jones系统和生物分子系统上进行端到端可微分子模拟。本文介绍了TorchMD的功能,重点介绍了支持的功能形式和数据驱动DNN电位的有效拟合策略。

方法

2.1 TorchMD模拟和势能分析

TorchM不仅是一个标准的分子动力学代码,它提供NVT集成模拟,郎格文恒温器,初始原子速度是由麦克斯韦玻尔兹曼分布导出的,积分使用velocity Verlet算法。用反力场法对远距离静电场进行了近似计算。TorchMD也支持周期性系统的模拟。最小化是使用L-BFGS算法完成的。因为它是使用PyTorch数组用Python编写的,所以修改起来也非常简单,而且模拟可以在PyTorch支持的任何设备上运行(CPU、GPU、TPU)。然而,不像专门的MD代码,它不是为速度而设计的。TorchMD使用与经典MD代码一致的化学单位,如kcal/mol表示能量,K表示温度,g/mol表示质量,Å表示距离。TorchMD支持通过parmed读取AMBER力场参数。除此之外,为了更快地构建原型和开发,它实现了易于阅读的基于yaml的force-field格式。图1给出了模拟水盒子的YAML力场文件示例。目前&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值