决策树学习笔记

m0_46521579

于 2024-04-27 14:32:05 发布

阅读量676

点赞数 5

文章标签：决策树算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46521579/article/details/138013659

版权

一、衡量标准——熵

$H(X)=-\sum p_i \log(p_i)$

随机变量不确定性的度量

信息增益：表示特征X使得类Y的不确定性减少的程度。

二、数据集

14天的打球情况

特征：4种环境变化（天气、温度等等）

在上述数据种，14天中打球的天数为9天；不打球的天数为5天，计算熵值为

$H(X)=-\frac{5}{14} \log(\frac{5}{14}) - \frac{9}{14} \log(\frac{9}{14}) = 0.940$

（1）选择outlook作为根节点

计算加权

$\frac{5}{14}*0.971+\frac{4}{14}*0+\frac{5}{14}*0.971=0.693$

gain(outlook) = 0.940-0.693 = 0.247

类似计算：

gain(temp) = 0.029

gain(humidity) = 0.152

gain(windy) = 0.048

outlook的信息增益最大，因此选择outlook作为根节点

以此类推，确定每一个子树的根节点

三、决策树算法

ID3: 信息增益

C4.5: 信息增益率

CART: GINI系数

$1-\sum p_k^2$

四、剪枝

决策树过拟合风险很大，理论上可以将数据完全分开，即一个叶子节点一个数据，因此需要对决策数进行剪枝操作。

剪枝策略：预剪枝和后剪枝

预剪枝：边建立决策树边进行剪枝操作

后剪枝：当建立完决策树后来进行剪枝操作

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
决策树学习笔记

随机变量不确定性的度量信息增益：表示特征X使得类Y的不确定性减少的程度。
复制链接

扫一扫

m0_46521579 CSDN认证博客专家 CSDN认证企业博客

码龄4年

140: 原创

52万+: 周排名

1万+: 总排名

12万+: 访问

: 等级

1522: 积分

84: 粉丝

91: 获赞

6: 评论

532: 收藏

私信

关注

热门文章

分类专栏

C++ 21篇
操作系统
CUDA 7篇
通信网络基础 12篇
Python
qt 5篇
opencv 2篇
ZYNQ 14篇
数字信号处理 15篇
计算机组成 1篇
openofdm 8篇
通信原理 9篇
其他 2篇
GD32 6篇
ZYNQ SDK 1篇
32 2篇
软件无线电基础 1篇
AD15 1篇
信号与系统 9篇
电磁场理论 4篇
随机信号分析 6篇
数字电路 3篇

最新评论

多速率处理与滤波器设计
inprogram: 怎么抗混叠的呢？
数字电路笔记02：逻辑代数基础
m0_62574624: 可能没注意负逻辑规定高电平为逻辑0
论文笔记：Fast density-based clustering through dataset partitionusing graphics processing units
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
C++入门
toooooooool: 写的很不错，支持下
openofdm04：Symbol Alignment
moodcn: 你好，OpenOFDM的检测长导码的模块中，检测第一个尖峰时为什么累计64个样本的条件是if (metric_stb)这样呢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。