分子AI预测赛笔记

#AI夏令营 #Datawhale #夏令营

一、Task1

首先根据教程报名分子性质AI预测挑战赛

然后用十几分钟跑通baseline

刚跑通的时候比较蒙,不知道是什么,只知道点击运行,然后提交结果得到了一个分数0.7064

二、Task2

首先了解了赛题背景以及任务

接着看了一些数据字段代表的意义

例如:Smiles是一种用于描述化学结构的文本字符串,它能够被用于输入化学信息学软件。

然后了解参考资料给的能帮助处理SMILES字符串的RDKit库以及配套代码

最后结合task3的讲解视频一起学习

三、群内聊天学习

决策树经典的属性划分方法

基于信息增益判断:基于熵的概念,选择能够最大程度减少数据集熵的属性进行划分。常用于ID3算法;

基于信息增益率判断:对信息增益进行改进,考虑到属性取值较多的问题,选择信息增益率最高的属性进行划分。常用于C4.5算法;

基于基尼指数判断: 选择基尼指数最小的属性进行划分。基尼指数衡量的是数据集的纯度。常用于CART(分类与回归树)算法。

决策树在实际应用中优缺点

优点:计算复杂度不高,便于使用,高效,能够处理多种数据类型,可很容易地构造出易于理解的规则。

缺点:易过拟合,对噪声数据敏感,忽略数据集中属性之间的相关性,不稳定等。

机器学习中的过拟合

过拟合是指模型过于紧密或精确地匹配特定数据集,泛化能力差,导致在新的、未见过的数据上表现不佳。

防止过拟合的方法

例如:数据增强:通过对训练数据进行变换,比如旋转、缩放、翻转等,增加数据的多样性,帮助模型学习到更一般的特征。

正则化:添加正则项到损失函数中可以惩罚模型的复杂度,限制模型权重的大小,从而减少过拟合。

提前停止:在机器学习模型学习数据中的噪音之前,提前停止暂停训练阶段。

这个夏令营不简单 #AI夏令营 #Datawhale #夏令营

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值