Datawhale AI夏令营第三期Task 01笔记

TaLycent

已于 2024-08-27 22:52:39 修改

阅读量235

点赞数 1

文章标签：笔记

于 2024-07-28 23:59:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_80097115/article/details/140758758

版权

Task01中涉及到一个机器学习-随机森林方案，以下为原代码。

图1 魔塔截图

参数解释：
n_estimators=10：随机森林中决策树的数量，这里设置为10棵树。
max_depth=None：单棵决策树的最大深度，默认情况下不限制树的深度。
min_samples_split：在内部节点再划分所需的最小样本数。
min_samples_leaf：叶子节点最少需要的样本数。
n_jobs=1：并行计算的作业数量，-1 表示使用所有可用的 CPU 核心。

做了一个小实验，当决策树数量较小（此处设置为1）时，生成的答案统一都是分数比较低的，但是有着明显的大小区分，初步猜测可能离散分布于某一区间，因为平台提交次数限制原因，没办法进行更多实验采集数据。这是因为随机森林的预测结果可能会有较大的方差，模型的集成效果依赖于多棵树的平均预测。随机森林的优势在于集成多棵决策树的预测结果，以减少单棵树可能出现的过拟合问题，提高整体预测的稳定性和准确性。

图2 成绩截图

01中，通过更改了参数，可以较为容易地提高自己的分数，如27号的0.2583.接下来会继续尝试更改模型和其他方案。笔记残缺内容较多...还请原谅~

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datawhale AI夏令营第三期Task 01笔记

做了一个小实验，当决策树数量较小时，生成的答案统一都是分数比较低的，但是有着明显的大小区分，可能分散集中于某一部分。这是因为随机森林的预测结果可能会有较大的方差，模型的集成效果依赖于多棵树的平均预测。随机森林的优势在于集成多棵决策树的预测结果，以减少单棵树可能出现的过拟合问题，提高整体预测的稳定性和准确性。01中，通过更改了参数，可以较为容易地提高自己的分数，如27号的0.2583.接下来会继续尝试更改模型和其他方案。n_jobs=1：并行计算的作业数量，-1 表示使用所有可用的 CPU 核心。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。