notes for datawhale summer camp chemistry task1

[[appendix/Task1_baseline.ipynb|Task1_baseline]]

赛题

任务

构建一个能够准确预测碳氮成键反应产率的预测模型。  
通过对反应中所包含的反应底物、添加剂、溶剂以及产物进行合理的特征化,运用机器学习模型或者深度学习模型拟合预测反应的产率。
或者利用训练集数据对开源大语言模型进行微调以预测反应的产率。

总结 :

输入:底物和条件,(SMILES)
输出:产率,(float,0-1之间)

补充信息

SMILES,全称是Simplified Molecular Input Line Entry System,是一种将化学分子用ASCII字符表示的方法,是化学信息学领域非常重要的工具。

RDKIT,化学信息学中主要的工具,开源。网址:http://www.rdkit.org
支持WIN\MAC\Linux,可以被python、Java、C调用。几乎所有的与化学信息学相关的内容都可以在上面找到。

sklearn (scikit-learn),是一个非常广泛使用的开源机器学习库,基于Python,建立在NumPy、SciPy、Pandas和Matplotlib等数据处理和分析的库之上。
它涵盖了几乎所有主流机器学习算法,包括分类、回归、聚类、降维等。API设计亲民,整个使用简单易上手,非常适合作为机器学习入门的工具。
官网:https://scikit-learn.org/stable/index.html

在sklearn中,几乎所有的机器学习的流程是:

  1. 实例化模型(并指定重要参数);
  2. model.fit(x, y) 训练模型;

进一步学习

Pandas学习推荐

Datawhale有一个开源教程项目叫 Joyful Pandas,出版图书《pandas数据处理与分析》豆瓣链接:https://book.douban.com/subject/35998391/

文字版教程链接:https://inter.joyfulpandas.datawhale.club/Home.html

视频教程链接:https://www.bilibili.com/video/BV1tK4y177AF/

机器学习材料推荐

Datawhale翻译了李宏毅老师的机器学习教程,可在https://linklearner.com/learn/summary/13 链接处学习查看

sciket-learn学习材料

强烈推荐直接在官网找实例进行学习,并学会快速查找官方文档。官网:https://scikit-learn.org/stable/index.html

强烈推荐Datawhale的学习教程,内容丰富,质量超高👍

https://github.com/datawhalechina?q=&type=all&language=&sort=

在本次学习过程中,可以一边将上面推荐的材料作为字典,遇到问题时通过这些材料、大模型、搜索引擎,去翻阅查看,做到理论和实践的结合,真正理解这些理论知识的价值、以及究竟要如何在真实的问题场景中使用。

课外

使用carnets plus,似乎ipad也可以运行ipynb?
可能云服务器更方便一些

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值