- 博客(132)
- 资源 (2)
- 收藏
- 关注
原创 安装 moleculeSTM 踩坑日记
学习 LLM ,在大模型时代为自己存张船票”。相信很多人都有这样的想法。那么,在 AI for science 领域,哪些 LLM 模型值得一试呢?在清楚 LLM 定位后,笔者认为,当前做得比较好的一项作品是 2023_nature machine intelligence_moleculeSTM。
2024-07-29 01:35:00 773
原创 张量网络碎碎念:从 SO3 到 SO2
在这一个月的时间里,我硬着头皮看了很多遍 2023-ICML-eSCN,目前自觉能消化 70% 内容,遂写文记之。(后面实在是消化不动了)
2024-07-28 18:11:18 1097
原创 图神经网络与分子表征:8. TFN
兴致冲冲的我抱着 2023-ICML-eSCN 看了好几天,毫无头绪,因为 2023-ICML-eSCN 是建立在 NequIP 这类多通道模型的基础之上的。在进一步挖掘后,我发现这些论文里频繁提到老文献 TFN,以及其背后的 Python 库 e3nn.
2024-07-01 01:13:01 1224
原创 图神经网络与分子表征:7. LEFTNet
在执行性质预测任务时,我们需要考虑两个问题:1. 如何正确的将图结构进行编码?2. 如何汇聚编码信息预测整个分子的任务?LEFTNet 就是通过回答上述问题来进行模型设计的。
2024-04-19 18:37:11 1052
原创 使用 ASE 拼接分子
在部分应用场景下,我们需要对两个分子片段进行拼接。例如锂电电解液数据库 LiBE,然而,当前并没有合适的拼接方法。本文将尝试使用 ASE 实现任意分子片段的拼接。
2024-04-13 12:06:53 767
原创 图神经网络与分子表征:6. EGNN
很多人在完成升学考试后便很少参与公式推导这种数学锻炼,导致大家对数学公式避之不及。事实上,很多经典的神经网络框架正是基于简单、直观的数学推导搭建的。
2024-01-15 00:00:12 1638
原创 图神经网络与分子表征:番外——等变术语
本文重点参考了这篇博客:https://nb.bohrium.dp.tech/detail/1342看论文时经常会遇到 SE3, SO3, O3 等字样,云里雾里,难以理解。本文对这些术语进行集中解释。
2024-01-02 19:25:23 1533
原创 openbabel 安装 & 生成指纹方法
我们可以通过两种途径将 openbabel fingerprint 转换成 1024 维 one-hot 向量。
2023-12-01 22:40:14 635
原创 捕获 rdkit 警告
rdkit 是一个神奇的 python 包。它的函数主体部分是 C++ 写的,python 仅仅提供接口。具体到日志模块,rdkit python 中看不到源码,官方只是提供了一些函数接口供调用。静默 rdkit 的警告信息是最常见的需求,网上教程也很多。但是捕获 rdkit 的警告信息则完全没有正确答案。
2023-10-30 21:21:59 207
原创 图神经网络和分子表征:5. Completeness
大家都知道 “两点确定一线,三点确定一平面”,那么多少个变量可以确定一个分子呢?这是最近顶刊们热烈讨论的话题。
2023-10-29 15:17:24 616
原创 图神经网络和分子表征:4. PAINN
如果说 SchNet 带来了【3D】的火种,DimeNet 燃起了【几何】的火苗,那么 PAINN 则以星火燎原之势跨入 【等变】时代。
2023-09-04 23:51:56 1863 3
原创 图神经网络和分子表征:3. 不变网络最后的辉煌
本篇博客,我们将依次介绍首次纳入角度信息的DimeNet(2020 ICLR),受DimeNet启发的GemNet (NeurIPS 2021),PAINN(2021 ICML)和SphereNet(2022 ICLR)以及做到局域完备性的ComENet(NeurIPS 2022)。
2023-08-27 00:08:21 1783 3
原创 图神经网络与分子表征:番外——基组选择
部分研究人员借用高斯中的一系列基组去包装输入几何信息(距离、角度和二面角),这样做一方面提高了GNN的可解释性,另一方面也实实在在的提高了模型精度。从 AI 角度看,embedding则可以看作是几何信息的升维。
2023-08-26 18:11:54 1196 2
原创 图神经网络与分子表征:2. SchNet
SchNet 在2018年的面世彻底引爆了神经网络势函数(NNP, Neural Network Potential)领域,虽然说NNP的开山鼻祖还要更早,但均未像 SchNet 这样真正被物理化学家接受,引发变革。这篇博客浅浅记录下自己阅读SchNet代码的心得。
2023-08-23 01:43:29 2782 6
原创 图神经网络与分子表征:1. 分子图和图神经网络基础
CSDN的朋友们大家好,好久没写系列文章了。近期读了很多图神经网络(GNN)和分子表征(molecular representation)的论文,正好最近不是很忙,所以我决定把自己的学习过程记录下来,与大家共勉。
2023-08-22 00:02:24 2066
原创 ReduceLROnPlateau学习率记录
最开始觉得“不受控制”是以为,模型过了这个 patience 以后,学习率一定下降,所以最后是类似 stepLR 那样的形状。这个参数的定义是:如果模型在连续 patience 上误差降低均低于 threshold,学习率将触发下降条件。上述两例只针对 patience 这一个参数,当然了,还有其他的一些参数,具体请看。在经过一番调研后,我大概搞懂了为什么总感觉下降不受控制。然而,该学习率使用起来总给人一种,下降不受控制的感觉。其中最核心的参数是patience。事实上,下降是需要根据阈值调整的,
2023-07-24 11:55:02 300
原创 第三届DeepModeling黑客松竞赛
今年的Hackathon难度梯度设置很广,有偏向硬核开发的,有偏向应用的,还有面向初学者的教学布道赛道!
2023-07-06 15:12:50 169
原创 数据集的两种漂移
首先,我们回顾一下有监督机器学习的任务。我们可以将其抽象为:从输入X∈XX∈X预测输出Y∈YY∈Y。二者的联合分布PYXP(Y,X)PYXPY∣XPXP(Y|X)P(X)PY∣XPX。其中PXP(X)PX是通常意义下的输入的分布,PY∣XP(Y|X)PY∣X可以看作是机器学习模型需要学习的映射关系,PYXP(Y,X)PYX是最终的 target。
2023-05-20 22:13:50 640
原创 玩转 Python super 函数
编程小白看到 super 函数就发怵,奇怪的语法难以清晰的描述。本文首先定义 super 的使用场景,再通过变换一个实例为 super 函数祛魅。
2023-01-26 17:55:23 1162 2
原创 从 Nauty 数据结构出发认识群论
对于计算机方向同学,可以尝试从数据结构的角度理解群论。本文基于 Nauty 文档、网站和 Nauty 的 python binding, pynauty(github.com) 展开。
2022-12-04 02:07:41 1536 1
原创 Surge:分子生成最前沿
这篇文章简要介绍分子生成程序 `Surge` 的工作原理。`Surge` 是当下最好的开源的分子生成程序,枚举百万量级分子仅需要0.1秒左右。
2022-12-01 18:54:45 712
原创 高质量科研绘图工作流
论文写作常常需要 PPT 加工图片,然而,PPT 直接导出的图片清晰度较差。本文我们使用开源工具来自动化完成图片增强等操作。
2022-11-17 22:42:35 883 1
原创 奇技淫巧第7期
终于腾出时间了,现在对3~11月份知识点作总结。这段时间主要在写论文,跑案例分析。暑期的比赛另写了一个小系列,这里就不再写了。总的来说,零散的代码知识点在积累几个月后还是要汇总回顾一下的。
2022-11-17 16:44:21 8655
翻译 github action配置secrets
github secrets分成三类,environment secrets优先级最高,然后是rapository, orgnization。
2022-10-04 02:38:15 3502 1
原创 INMS伪代码注释
读文献: https://doi.org/10.3390/insects12080705。比如,两个框指向了不同的类,但假类的置信度更高,所以最终结果会判定给假类。如果两个框的重叠大于一定阈值,取最大置信度的框。图像识别领域有一个子项是物体切割。但有时候会有很多框重叠的现象。
2022-09-23 00:40:24 595
pytorch简单练习.rar
2021-04-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人