从零入门AI for Science(AI+化学)#Datawhale夏令营

从零入门AI for Science(AI+化学) 是 Datawhale 2024 年 AI 夏令营第三期的学习活动,基于天池平台第二届世界科学智能大赛 物质科学赛道:催化反应产率预测开展的实践学习

有感兴趣的同学可去

报名赛事!(点击即可跳转)

http://competition.sais.com.cn/competitionDetail/532233/format(赛事网址)

了解更多信息

启动魔搭Notebook!(点击即可跳转)icon-default.png?t=N7T8https://www.modelscope.cn/my/mynotebook/preset

本次赛事数据可在官网下载

  1. 解压文件

    使用命令   unzip AI+化学baseline文件包.zip

          unzip+压缩包名.zip

找到task1中的随机森林,自己可以尝试更改数据

关于随机森林(想细致了解可以看一下下面这两位博主)

http://t.csdnimg.cn/rNmmGicon-default.png?t=N7T8http://t.csdnimg.cn/rNmmGhttp://t.csdnimg.cn/ocTSyicon-default.png?t=N7T8http://t.csdnimg.cn/ocTSy

随机森林是集成学习中的Bagging(Bootstrap Aggregation)方法的一种实现,是由很多决策树作为基础估计器集成的一个同质估计器。
各决策树之间没有关联,在用随机森林进行分类时,每个样本会被森林中的每一颗决策树进行判断和分类,每个决策树会得到一个分类结果,哪一个分类的结果最多(众数),就是随机森林的最终结果

参数解释:

  • n_estimators=10: 决策树的个数,越多越好;但是越多意味着计算开销越大;
  • max_depth: (default=None)设置树的最大深度,默认为None;
  • min_samples_split: 根据属性划分节点时,最少的样本数;
  • min_samples_leaf: 叶子节点最少的样本数;
  • n_jobs=1: 并行job个数,-1表示使用所有cpu进行并行计算。

随机森林算法步骤

假设训练集 T 的大小为 N ,特征数目为 M ,随机森林的大小为 K ,随机森林算法的具体步骤如下:

遍历随机森林的大小 K 次:
  从训练集 T 中有放回抽样的方式,取样N 次形成一个新子训练集 D
  随机选择 m 个特征,其中 m < M
  使用新的训练集 D 和 m 个特征,学习出一个完整的决策树
得到随机森林

想刷高分可以把这几个数据稍作修改,然后再进行运行

  • 19
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值