DataWhale机器学习——第四章决策树学习笔记

小洛~·~

已于 2024-06-27 04:53:05 修改

阅读量340

点赞数 3

文章标签：笔记人工智能机器学习

于 2024-06-27 04:51:05 首次发布

本文链接：https://blog.csdn.net/m0_55303420/article/details/140002389

版权

第四章决策树

4.1 基本流程 决策树是一种递归地将数据集分成更小子集的分类和回归模型。基本流程包括：

选择最佳划分属性：通过信息增益、增益率或基尼指数等指标选择最优划分属性。
划分数据集：根据选定的属性将数据集划分成若干子集。
递归构建子树：对子集重复上述过程，直到满足停止条件，如所有样本属于同一类别或无法继续划分。
生成决策节点和叶节点：生成包含属性测试条件的决策节点和表示类别的叶节点。

4.2 划分选择 选择划分属性的主要标准有：

信息增益：基于熵的减少量。
增益率：信息增益与属性固有值的比值。
基尼指数：用于评估数据集的不纯度。

4.3 剪枝处理 剪枝是减少决策树过拟合的一种技术。包括：

预剪枝：在生成决策树过程中提前停止划分。
后剪枝：生成完全决策树后，移除不必要的分支。

4.4 连续与缺失值 处理连续属性和缺失值的策略：

连续属性：将连续值离散化，通常采用二分法。
缺失值：通过样本的权重或替代值进行处理。

4.5 多变量决策树 多变量决策树使用多个属性的组合进行划分，提高了模型的灵活性和预测性能。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小洛~·~

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

机器学习笔记——西瓜书第四章决策树

weixin_43182899的博客

08-26

238

信息熵：自信息：p(x)为取x的概率。 I(X)=−logbp(x)I(X)=-log_bp(x)I(X)=−logbp(x) 信息熵（公式1）：自信息的期望，度量随机变量X的不确定性，信息熵越大，越不确定。假设当前样本集合D中第k类样本所占比例为pk，则D的信息熵定义为2 H(X)=E[I(X)]=−∑xp(x)logbp(x)−−−1Ent(D)=−∑x∣y∣pklog2pk−−−2H(X)=E[I(X)]=-\sum_{x}{p(x)log_bp(x)}---1 \\ Ent(D)=-\sum_{

Datawhale机器学习笔记——2

mrpig13的博客

08-23

180

本文为可视化、交叉验证、特征工程，三部分的笔记虽然可能成绩上并没有得到很好的结果，但对我个人来说，这确实是一个不小的“小进步”。在大学两年中，我一直在学习基础课程，基本上没有时间，更多的是没有动力去学习专业方面的知识。万事开头难，能够在这个赛事中正式开始代码方面的实践，算是开了个好头；但“靡不有初鲜克有终”，在之后，我肯定还需要继续努力。最有感触的是，在助教开会时提到的，说到其实没有必要把自己限制在“我是小白”的死亡圈套里，这样反而会真正一直是小白，给自己找了不去学习的借口（就是我之前的状态）。

参与评论您还未登录，请先登录后发表或查看评论

Datawhale机器学习笔记——1

mrpig13的博客

08-18

235

Datawhale和讯飞举办的“用户新增预测挑战赛”的baseline代码详解

Datawhale AI 夏令营——机器学习——电力需求预测挑战赛——Task3学习笔记

m0_74911121的博客

07-20

383

最常见的方式是进行加权平均融合，即对不同模型的预测结果赋予不同的权重，然后将加权后的结果作为最终预测输出。第二层：将第一层多个模型的预测结果作为新的特征，然后训练第二层模型，得到最终的Stacking模型。基本原理： Stacking是一种分层模型集成框架，分为两层：第一层由多个基学习器组成，第二层的模型由第一层基学习器的输出作为特征进行再训练，从而得到完整的Stacking模型。实现流程：按照给定的权重对每个模型的预测结果进行加权平均，得到最终的融合结果。

Datawhale AI 夏令营——电力需求挑战赛——Task2学习笔记

m0_63566347的博客

07-16

1872

LightGBM（Light Gradient Boosting Machine）是一个实现 GBDT 算法的框架，支持高效率的并行训练，并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。LightGBM 框架中还包括随机森林和逻辑回归等模型。

Datawhale AI 夏令营——机器学习入门学习笔记

m0_53556526的博客

07-20

适用性：传统模型适合数据量较小、模式简单的问题；机器学习模型适合中等复杂度的问题，可以引入额外变量；深度学习模型适合数据量大、模式复杂的任务。解释性：传统时间序列模型通常具有较好的解释性；机器学习模型的解释性取决于特征工程；深度学习模型的解释性通常较差。计算资源：传统模型计算效率最高；机器学习模型次之；深度学习模型通常需要最多的计算资源。预测能力：深度学习模型在捕捉复杂模式方面具有优势，但需要大量数据支持；传统和机器学习模型在数据量较小或模式较简单时可能更有效。

Datawhale AI 夏令营——电力需求挑战赛——Task1、2、3学习笔记

mmx666zz的博客

07-16

1056

赛题数据由训练集和测试集组成，为了保证比赛的公平性，将每日日期进行脱敏，用1-N进行标识。即1为数据集最近一天，其中1-10为测试集数据。数据集由字段id（房屋id）、 dt（日标识）、type（房屋类型）、target（实际电力消耗）组成。定义一个函数来训练LightGBM模型并进行预测：：选择训练集中时间戳（dt）大于等于31的数据作为训练集特征（trn_x：选择训练集中时间戳大于等于31的数据作为训练集标签（

机器学习_西瓜书_C4决策树

d1596324的博客

07-21

465

西瓜书+南瓜书: 第四章_决策树.

datawhale 学习笔记——建模调参入门

落队的飞行兵

04-01

690

前言居然又拖到了最后一天才开始打卡，。果然 ddl 是第一生产力。放上这次的教程链接：Datawhale 零基础入门数据挖掘-Task4 建模调参看标题就知道这次的这次的内容是建模和调参。虽然说是零基础入门系列，但是这次的教程对真的零基础的人来讲并不是很友好，还是需要很多前置知识的。主要是机器学习模型方面的教程，教程里给出了几篇作者写的文章。个人感觉需要一定门槛，如果看不懂建议参考其他的。 ...

CV学习第五课——SVM、决策树、KNN以及K-Means等其他机器学习工具

u012106517的博客

03-12

1131

1.SVM（支持向量机）以下内容转载文章：SVM支持向量机入门及数学原理 1.1简介 SVM名字由来：在支持向量机中，距离超平面最近的且满足一定条件的几个训练样本点被称为支持向量。图中有红色和蓝色两类样本点。黑色的实线就是最大间隔超平面。在这个例子中，A，B，C 三个点到该超平面的距离相等。注意，这些点非常特别，这是因为超平面的参数完全由这三个点确定。该超平面和任何其他的点无关。如果改变其...

【吃瓜教程】《机器学习公式详解》西瓜书与南瓜书公式推导

chenxu7758258的博客

07-13

4389

【吃瓜教程】《机器学习公式详解》西瓜书与南瓜书公式推导 2021年7月11日第0章-导学深度学习：狭义地来说，就是具有较多层的神经网络。整个学习过程; 先看西瓜书，在看 Datawhale吃瓜教程. ，最后要看南瓜书。 2021年7月12日第一章绪论 1.1引言 机器学习：将“经验”以“数据”的方式存储下来 ⇒\Rightarrow⇒产生模型算法-学习算法 ⇒\Rightarrow⇒ 产生模型-分析新的数据-给出判断训练模型-学习器 1.2基本术语样本：记录一个事件或者一个对象的描述，通常假

首届世界科学智能大赛：生命科学赛道——生物学年龄评价与年龄相关疾病风险预测（第一次笔记）

qq_42859625的博客

08-18

467

本次笔记参考Datawhale AI夏令营（第三期） - AI for Science 生命科学赛道学习手册本次赛题全称为【首届世界科学智能大赛：生命科学赛道——生物学年龄评价与年龄相关疾病风险预测】举办方：【赛题背景】生物学年龄评价是一种通过测量和分析生物体内特定指标或生理过程的状态，以评估个体的生理年龄和健康状况的方法。与传统的日历年龄相比，生物学年龄可以提供更准确的健康评估和疾病风险预测。

【树模型与集成学习】(task6)梯度提升树GBDT+LR

发现问题，并解决问题，批判性思维

11-03

779

学习总结（1）不同问题的提升树学习算法，主要区别在于使用的损失函数不同，如用平方误差损失函数的回归问题、用指数损失函数的分类问题、用一般损失函数的一般决策问题等。（2）由于GBDT是利用残差训练的，在预测的过程中，我们也需要把所有树的预测值加起来，得到最终的预测结果。【内容概要】Part D第一节和第二节【打卡内容】侧边栏练习，知识回顾，实现gbdt的分类树和回归树文章目录学习总结一、用于回归的GBDT1.1 函数空间的优化问题1.2 学习率1.3 另一个角度二、用于分类的GBDT2.1 拟合的

C++学习笔记----6、内存管理（五）---- 智能指针（3）

weixin_71738303的博客

09-11

1187

与指向特定类型的原始指针可以转化为不同类型的指针一样，shared_ptr保存特定的类型可以转化为一个另一种类型的shared_ptr。转化shared_ptr的函数是const_pointer_cast()，dynamic_pointer_cast(),static_pointer_cast()和reinterpret_pointer_cast()。前面简要提过，当拥有共享属主的智能指针，例如shared_ptr不在活动范围或者被重置时，只有它是最后指向的智能指针时才能释放其指向的资源。

arm和riscv系统调用对比(笔记)

maosql

09-13

570

相似之处: ecall 和 SVC 都是用于从用户模式切换到内核模式，执行系统调用。它们的作用和使用方式非常相似，都是触发内核级别的处理，以处理用户请求的特权操作。不同之处: PendSV 是一个用于任务切换的中断机制，与 ecall 和 SVC 的作用不同。PendSV 主要用于上下文切换，而 ecall 和 SVC 是用于请求系统服务的机制。

shader 案例学习笔记之将坐标系分成4个象限

localhost

09-13

215

坐标系被分成了4个单元格，每个单元格都有唯一的索引，后续就可以根据索引去渲染。

ROS组合导航笔记1：融合传感器数据

DataWhale机器学习——第四章决策树学习笔记

第四章 决策树

第四章决策树