西瓜书第四章

最新推荐文章于 2024-05-23 22:02:44 发布

Altira

最新推荐文章于 2024-05-23 22:02:44 发布

阅读量443

点赞数

文章标签：决策树算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46281780/article/details/128019603

版权

西瓜书第四章

4.1

1、自信息

$I(X)=-log_b\,p(x)$
信息熵（自信息期望）：度量X的不确定性，信息熵越大越不确定。是度量样本集合纯度最常用的一种指标。
$H(X)=E[I(X)]=-\sum_{x}{p(x)log_b\,p(x)}$

2、

决策树学习的目的是产生一颗泛化能力强，即处理未见示例能力强的决策树，基本流程遵循“分而治之”。
4.2
1. 信息熵定义：
  $Ent(D)=-\sum_{k=1}^{|y|}p_k\,log_2\,p_k$
  样本D中第K类样本所占的比例为 $P_k$ (k=1,2…|y|)
  
  Ent(D)值越小，纯度越高。
2. 计算样本划分后所提升的性能称为“信息增益”(information gain)。
  $Gain(D,a)=Ent(D)-\sum_{v=1}^V{Ent(D^v)}$
  即为信息熵-条件熵（划分前-划分后）。
3. 信息增益越大，意味着使用属性a来进行划分所获得的的“纯度提升”越大。
4. 此称为ID3,对取值数目较多的有偏好
5. 增益率：
  $Gain_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}$
  其中
  $IV(a)=-\sum_{v=1}^{V}log_2\frac{D^v}{D}$
  称为C4.5,对可取值数目较少的属性有所偏好。
6. 基尼指数：
  
  CART决策树，将数据划分为a=v和a!=v(所以一定是一颗二叉树)。
  $Gini(D)=\sum_{k=1}^{|y|}\sum_{k'!=k}p_kp_{k'} =\sum_{k=1}^{|y|}p_k(1-p_k)=1-\sum_{k=1}^{|y|}p_k^2$

4.3

预剪枝是指在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点;后剪枝则是先从训练集生成一棵完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点.

4.4

我们需解决两个问题: (1) 如何在属性值缺失的情况进行划分属性选择? (2) 给定划分属性?若样本在该属性上的值缺失，如何对样本进行划分?

（1）对属性表征无缺失值样本所占的比例 $P_k$ 表示无缺失值样本中类所占的比例 , $r_v$ 则表示无缺失值样本中在属性a上取值 $a^v$ 的样本所占的比例.

在这里插入图片描述

中在属性a上取值 $a^v$ 的样本所占的比例.

对问题(2) ，若样本x在划分属性a上的取值己知,则将x划入与其取值对应的子结点，且样本权值在于结点中保持为 $w_x$ . 若样本x在划分属性a上的取值未知，则将x同时划入所有子结点,且样本权值在与属性值a对应的子结点中调整为 $r_v*w_v$ (点乘)。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
西瓜书第四章

西瓜书第四章组队学习
复制链接

扫一扫

Altira CSDN认证博客专家 CSDN认证企业博客

码龄4年

16: 原创

109万+: 周排名

8万+: 总排名

6615: 访问

: 等级

188: 积分

31: 粉丝

24: 获赞

5: 评论

57: 收藏

私信

关注

热门文章

分类专栏

Go 4篇
推荐系统 1篇

最新评论

Viper 大中型项目配置解析神器
CSDN-Ada助手: 恭喜你写出了第15篇博客！标题中的“Viper 大中型项目配置解析神器”听起来非常厉害！希望你能继续保持创作的热情和动力，分享更多有价值的内容给大家。或许下一步可以深入探讨一些实际应用案例，让读者更容易理解和应用你的经验分享。期待你的下一篇作品！加油！
KAFKA集群和kafka-ui docker-compose 一键安装
普通网友: 干货满满！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
Hertz框架的JWT使用
CSDN-Ada助手: 恭喜您发布了第14篇博客“Hertz框架的JWT使用”！很高兴看到您对技术的热情和持续创作。接下来，我建议您可以尝试探讨一些实际案例，或者深入探讨JWT在不同框架下的应用，这样可以让读者更好地理解和应用这些知识。希望您继续保持写作的热情，期待您更多精彩的分享！
Hertz WebSocket 扩展
CSDN-Ada助手: 恭喜您发布了第13篇博客“Hertz WebSocket 扩展”！您的持续创作精神令人钦佩。希望您能继续分享关于 WebSocket 扩展的实践经验，也可以考虑探讨一些与之相关的技术应用或案例分析，以丰富读者的视野。期待您的下一篇作品！祝您创作顺利！
KAFKA集群和kafka-ui docker-compose 一键安装
CSDN-Ada助手: 不知道云原生入门技能树是否可以帮到你：https://edu.csdn.net/skill/cloud_native?utm_source=AI_act_cloud_native

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。