notes for datawhale summer camp chemistry task2

最新推荐文章于 2024-09-04 20:23:24 发布

kriss-spy

最新推荐文章于 2024-09-04 20:23:24 发布

阅读量440

点赞数 5

分类专栏： notes for DW summer camp chem 文章标签：学习 python 人工智能机器学习随机森林

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_81944256/article/details/140792569

版权

notes for DW summer camp chem 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

[[appendix/Task2_RNN.ipynb|Task2_RNN.ipynb]]

本次的任务是进一步了解 AI4Science 相关知识，然后使用深度学习的方法建模。

你可以从中：了解一些相关历史、了解 SMILES 和分子指纹，并对 RDkit 工具包有更深的认识；探究深度学习方法如何建模化学中的序列问题。

随着计算机技术的发展，将化学知识用计算机存储的方法也一直在发展和进步

AI4Chemistry知识点补充

早期历史

AI4Science的发展历史大致也经历这三个阶段：

将化学知识以计算机形式存储，并构建数据库
机器学习
深度学习

SMILES

Simplified Molecular Input Line Entry Syetem, SMILES, 将化学分子用ASCII字符表示，在化学信息学领域举足轻重

![[appendix/Pasted image 20240730094417.png]]

事实上，使用图数据（grpah）表示分子是非常合适的。图网络相比于基于SMILES的序列网络，在某些方面会更胜一筹

分子指纹

分子指纹是一个具有固定长度的位向量（即由0，1组成），其中，每个为1的值表示这个分子具有某些特定的化学结构。

通常，分子指纹的维度都是上千的，也即记录了上千个子结构是否出现在分子中。

RDkit

化学信息学中主要的工具
几乎所有的与化学信息学相关的内容都可以在网站上找到

示例代码略

机器学习

//之前无背景知识，复制过来学习

机器学习按照目标可以分为分类任务（classification）和回归（regression）任务两大类。
所谓分类任务，就是模型预测的结果是离散的值，例如类别；那么，回归任务中，模型预测的结果就是连续的值，例如房价等等。
在本次竞赛中，我们需要预测的目标是反应的产率，是0-1之间的一个连续的数值，所以是一个回归任务。

//离散值通过一些处理可以近似认为是连续值

![[appendix/Pasted image 20240730103640.png]]

分类型决策树（左），回归型决策树（右）

划分每个节点的目标是让该节点中的值尽可能相同。
在分类任务中，常见的就是信息熵衡量；在回归任务中，可以使用均方误差、绝对误差等进行衡量。

![[appendix/Pasted image 20240730103557.png]]

随机森林

将多个决策树结合在一起，训练每个决策树的数据集都是随机有放回地从原数据中选出。预测的时候，输入会通过每个决策树进行预测，然后考虑每个树地输出结果，得到最终的预测值。

深度学习

深度学习可以归为机器学习的一个子集，主要通过神经网络学习数据的特征和分布。深度学习的一个重要进化是不再需要繁琐的特征工程，让神经网络自己从里面学习特征。

SMILES是一种以ASCII组成的序列，可以被理解为一种“化学语言”。既然是一种语言，那么很自然地想到了可以使用NLP中的方法对SMILES进行建模。

使用RNN对SMILES建模是早期的一个主要方法。RNN（Recurrent Neural Network）是处理序列数据的一把好手。RNN的网络每层除了会有自己的输出以外，还会输出一个隐向量到下一层。

![[appendix/Pasted image 20240730104819.png]]

RNN架构示意图

其中，每一层相当于做了一次线性变换：
$h_{n}=\sigma(W_{hh}h_{n-1}+W_{hx}x_{n}+b_{n})$
每层的输出：
$y_{n}=Softmax(Vh_{n}+c)$

但是RNN也有缺点：如果序列太长，那么两个相距比较远的字符之间的联系需要通过多个隐藏向量。这就像人和人之间传话一样，传递的人多了，很容易导致信息的损失或者扭曲。因此，它对长序列的记忆能力较弱。

同时，RNN需要一层一层地传递，所以并行能力差，比较容易出现梯度消失或梯度爆炸问题。

在后面学习中，我们会继续学习使用Transformer这种架构，这种架构就完美解决了长序列学习能力差、难以并行、出现梯度消失或者爆炸等问题。

实践部分

略

课后思考

机器学习实践还是第一次

跑完不用花太多时间，太好了

最近在本地笔记本尝试玩AI，深感配置不足，最终投向阿里云的怀抱

关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
notes for datawhale summer camp chemistry task2

本次的任务是进一步了解 AI4Science 相关知识，然后使用深度学习的方法建模。你可以从中：了解一些相关历史、了解 SMILES 和分子指纹，并对 RDkit 工具包有更深的认识；探究深度学习方法如何建模化学中的序列问题。随着计算机技术的发展，将化学知识用计算机存储的方法也一直在发展和进步。
复制链接

扫一扫

专栏目录

kriss-spy CSDN认证博客专家 CSDN认证企业博客

码龄1年

24: 原创

48万+: 周排名

6万+: 总排名

1万+: 访问

: 等级

508: 积分

200: 粉丝

265: 获赞

5: 评论

282: 收藏

私信

关注

热门文章

分类专栏

最新评论

notes for datawhale 2th summer camp NLP task1
大数据飞总: 这是一篇高质量的好文，深度理解和清晰的表达方式使复杂的技术概念变得容易理解，值得收藏点赞。博主用心很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，期盼博主能够光顾我的博客，给予宝贵的指导！
notes for p2s chapter 6
CSDN-Ada助手: 恭喜您撰写第7篇博客！阅读了您的“notes for p2s chapter 6”感觉收获颇丰。建议您在下一篇博客中可以加入一些个人见解或者案例分析，更加丰富内容，让读者获益更多。期待您的下一篇作品！继续加油！
notes for p2s chapter 4
CSDN-Ada助手: 恭喜你在博客上发布了第5篇文章“notes for p2s chapter 4”！持续创作是非常了不起的，你的努力和热情让读者们能够从中受益。接下来，我建议你可以尝试增加一些个人见解和分析，让读者更深入地了解你对内容的理解和思考。继续加油，期待你更多精彩的文章！
notes for p2s chapter 2
CSDN-Ada助手: 恭喜您写了第三篇博客“notes for p2s chapter 2”！持续创作是非常了不起的事情，能够坚持下去真的很棒。建议您在下一篇博客中可以尝试加入更多的个人见解和分析，或者结合一些实际案例进行讨论，这样可以让读者更深入地了解您的思考。期待您的下一篇作品！祝您写作愉快！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
notes for p2s chapter 2
普通网友: 文章构思巧妙，结构紧凑，既有深度又有广度，读后让人受益匪浅，确实是一篇值得一读的佳作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。