机器学习在分子模拟中的应用_qm9数据集(1)，顺利收获Offer

本文链接：https://blog.csdn.net/2401_84263208/article/details/137807983

本文介绍了机器学习在分子模拟中的应用，重点是DeepMind的AlphaFold在解决蛋白质结构问题中的突破，以及相关工具TorchMD、DeepPotential和TorchProtein。AlphaFold通过强大的计算资源和深度学习技术，成功预测蛋白质结构，对学术界产生了深远影响。TorchMD是一个基于PyTorch的分子动力学框架，用于机器学习增强的生物分子模拟，而DeepPotential和TorchProtein分别致力于发展数据驱动的势能模型和蛋白质机器学习平台，推动了蛋白质研究的进步。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Golang全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Go语言开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024b （备注go）

正文

第八位牛津大学博士Russ Bates，医学图像处理，第九位剑桥大学MEng，Augustin Žídek，深度增强学习相关。第十位Alex Bridgland，牛津大学计算机博士，资料不详，alphafold一代作者之一。

第十一位Clemens Meyer，世界顶尖商学院巴黎高商毕业，且有了十年以上管理经验的资深产品经理。这个是我没有想到的。。。

第十二位Simon Kohl，KIT毕业物理硕士，CS博士，alphafold一代作者。

第十三位Anna Potapenko，俄罗斯国立高等经济大学CS博士，自然语言处理相关，

这篇文章在我能够理解的范围内，瞎猜一个，transformer？ long-range sequence？部署了transformer在提取序列attention当做input？（赛前猜的，猜对了一般，用了transformer直接end2end了）

第十四位Andrew Ballard, 计算物理学家，2015年加入deepmind，用过副本交换，研究过非平衡态系统，可能可以用来解决后面蛋白质结构refinement的问题？

第十五位Angew Cowie，参与开发了Acme！DRL！

第十六位Bernardino Romera Paredes UCL CS master。第十七位Stanislav Nikolov，MIT MEng master。第十八位, Rishub Jain，CMU CS master。第十九位，Demis Hassabis 大boss。

小结：这么多看下来，这19位真是兵强马壮，John Jumper又是为这个方法而生的，同时还引入了一个产品经理来维护整个团队，这些都是学术界不大可能拥有的东西。18年的alphafold我们还可以argue，其实他是集学术界大成者，整体创新性并没有那么强，起码大家都很容易follow，这次的alphafold2我要下个暴论，是真正意义上的应用了AI来解决蛋白质折叠问题！

2。计算资源

我之前对计算资源有点不屑一顾，不就是128个TPU么，几百万就搞定了，能拿的出这钱的单位多了。但是我现在想通一个问题，就是算法的迭代。研究人员在研究的时候要有无数次的尝试，如果训练模型不能快速的给出反馈的话，科研的进度就会被大大拖累。有大量的计算资源，不仅仅是提高了模型的复杂度而已，而是提高了研发人员的速度。就好比以前我们做gremlin开发的时候，部署在matlab框架下要一天时间，重新部署在tensorflow下几秒钟就够了，于是我就可以尝试各种奇怪的idea了。速度同样可以带来大量的创新。

所以我相信，128个TPU只是最终模型训练的结果，在研发过程中，肯定调用了更多的你难以想象的计算资源！但是这也没有完，Baker团队的trrosetta用非常轻量的模型就超过了18年的alphafold，所以在未来的几年，对问题理解的更好，学术界的平民版alphafold我相信也很快会出来的。

开源代码 https://github.com/deepmind/alphafold

如何在Colab上使用Alphafold2 进行结构预测

其他待补充，也欢迎留言讨论。

学术问题：

蛋白质折叠问题解决了没有？结构基因组学时代来临了没有？在这个技术下面，哪些目前的技术会被替代？结构生物学的空间在哪里？哪些有瓶颈的技术会得到突破，比如和蛋白质组学联合解释数据？

基本解决了，从结构生物学的角度讲，基因平等，然而人类总是挑一些可能比较有意思的蛋白去解析结构，alphafold2预测的精度足够高，一些犄角旮旯的蛋白结构可以得到大量的补充。而且在序列数据爆炸的情况下，可以得到大量可靠的预测模型是非常有意义的。按Nature的一篇评论，人们可以花更多的时间思考，花更少的时间拿移液枪了。

但是Alphafold也提了，氨基酸侧链的精确位置仍然是一个挑战，还有一些比如PPI，DNA，RNA，小分子配体的结合还没有解决。制药行业对侧链的精确度是非常之高的。

机制问题：

学术界干了几十年没解决的蛋白质折叠问题，deepmind为什么做的这么好，仅仅是因为资源丰富吗？

除了算法强之外，alphafold还汇集了几个领域的大佬，甚至请了一个专业的产品经理，学术界的合作是否能如此的紧密？目前的学术运营框架下合作难度多大？

学术界是不是在搞跳高运动，每年创新1cm？

社会问题：

对学术界有什么影响？

网红科学家穆罕穆德，这对这个领域是破坏性的，这个领域的核心问题已经被解决了，我想很多人都会离开这个领域了吧。（图片来源）

图片来自nature

四、TorchMD

引言

分子动力学模拟依靠经验的势函数模型来描述分子的相互作用。利用由机器学习方法衍生的数据驱动模型，可以提高这些势函数的准确性和可转移性。本文提出了一种称为TorchMD的在传统模拟上增加了机器学习的分子模拟框架。它将所有的势函数，包括键长、键角、二面角、范德华和库仑静电相互作用都表示为PyTorch的阵列和运算。经验证，TorchMD能够学习和模拟神经网络，并应用于AMBER全原子力场模拟、从头算模拟、蛋白质折叠的粗粒化模型的模拟中。

背景

分子动力学模拟(MD)可以较为准确的模拟分子的运动，通常分子力场包含所模拟的各类原子及溶剂分子，并通过键长键角等来表示其作用力，在模拟分子构象、折叠等方面具有较高的准确性。但分子动力学模拟存在两个弊端，首先分子力场计算非常耗时，且参数拟合非常复杂。其次，分子动力学模拟很难在大的生物尺度上进行模拟。随着深度神经网络(DNN)体系结构的出现，机器学习(ML)变得特有吸引力，它使定义任意复杂的函数及其导数成为可能。DNNs提供了一种非常有前途的方法，在从更精确的方法获得的大规模数据库上进行训练后，在MD模拟中嵌入快速而准确的势能函数。DNNs的一个特别有趣的特征是它们可以学习多体相互作用，并预测系统的力和能量。TorchMD是一个从头构建的分子动力学代码，利用ML库PyTorch的语言。通过将MD中使用的键和非键扩展到任意复杂的DNN, TorchMD实现了快速的机器学习。TorchMD的两个关键点是，它是用PyTorch编写的，很容易集成其他ML PyTorch模型，如从头算神经网络(NNPs)和机器学习粗粒化。TorchMD在Lennard-Jones系统和生物分子系统上进行端到端可微分子模拟。本文介绍了TorchMD的功能，重点介绍了支持的功能形式和数据驱动DNN电位的有效拟合策略。

方法

2.1 TorchMD模拟和势能分析

TorchM不仅是一个标准的分子动力学代码，它提供NVT集成模拟，郎格文恒温器，初始原子速度是由麦克斯韦玻尔兹曼分布导出的，积分使用velocity Verlet算法。用反力场法对远距离静电场进行了近似计算。TorchMD也支持周期性系统的模拟。最小化是使用L-BFGS算法完成的。因为它是使用PyTorch数组用Python编写的，所以修改起来也非常简单，而且模拟可以在PyTorch支持的任何设备上运行(CPU、GPU、TPU)。然而，不像专门的MD代码，它不是为速度而设计的。TorchMD使用与经典MD代码一致的化学单位，如kcal/mol表示能量，K表示温度，g/mol表示质量，Å表示距离。TorchMD支持通过parmed读取AMBER力场参数。除此之外，为了更快地构建原型和开发，它实现了易于阅读的基于yaml的force-field格式。图1给出了模拟水盒子的YAML力场文件示例。目前&#