分子AI预测赛笔记

东方树叶子

已于 2024-07-07 22:55:56 修改

阅读量229

点赞数 3

文章标签：笔记

于 2024-07-07 22:53:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45801244/article/details/140254063

版权

#AI夏令营 #Datawhale #夏令营

一、Task1

首先根据教程报名分子性质AI预测挑战赛

然后用十几分钟跑通baseline

刚跑通的时候比较蒙，不知道是什么，只知道点击运行，然后提交结果得到了一个分数0.7064

二、Task2

首先了解了赛题背景以及任务

接着看了一些数据字段代表的意义

例如：Smiles是一种用于描述化学结构的文本字符串，它能够被用于输入化学信息学软件。

然后了解参考资料给的能帮助处理SMILES字符串的RDKit库以及配套代码

最后结合task3的讲解视频一起学习

三、群内聊天学习

决策树经典的属性划分方法

基于信息增益判断：基于熵的概念，选择能够最大程度减少数据集熵的属性进行划分。常用于ID3算法;

基于信息增益率判断:对信息增益进行改进，考虑到属性取值较多的问题，选择信息增益率最高的属性进行划分。常用于C4.5算法;

基于基尼指数判断: 选择基尼指数最小的属性进行划分。基尼指数衡量的是数据集的纯度。常用于CART（分类与回归树）算法。

决策树在实际应用中优缺点

优点：计算复杂度不高，便于使用，高效，能够处理多种数据类型，可很容易地构造出易于理解的规则。

缺点：易过拟合，对噪声数据敏感，忽略数据集中属性之间的相关性，不稳定等。

机器学习中的过拟合

过拟合是指模型过于紧密或精确地匹配特定数据集，泛化能力差，导致在新的、未见过的数据上表现不佳。

防止过拟合的方法

例如：数据增强：通过对训练数据进行变换，比如旋转、缩放、翻转等，增加数据的多样性，帮助模型学习到更一般的特征。

正则化：添加正则项到损失函数中可以惩罚模型的复杂度，限制模型权重的大小，从而减少过拟合。

提前停止：在机器学习模型学习数据中的噪音之前，提前停止暂停训练阶段。

这个夏令营不简单 #AI夏令营 #Datawhale #夏令营

东方树叶子

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分子AI预测赛笔记

#AI夏令营 #Datawhale #夏令营
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。