西瓜书第四章学习笔记

最新推荐文章于 2023-10-30 09:47:10 发布

UEVOLIshy

最新推荐文章于 2023-10-30 09:47:10 发布

阅读量1k

点赞数 2

分类专栏：西瓜书学习笔记文章标签：西瓜书第四章学习笔记西瓜书第四章算法实现西瓜书第四章习题

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/UEVOLIshy/article/details/90441041

版权

西瓜书学习笔记专栏收录该内容

11 篇文章 4 订阅

订阅专栏

西瓜书第四章学习笔记

文章目录

西瓜书第四章学习笔记
习题
- 习题4.3
- 习题4.4
参考

知识脉络

第四章决策树知识脉络

一些补充

大部分内容在知识脉络都体现出来了，尤其是一些公式，这里仅做一些补充说明。

4.1 流程

决策树（判定树）：这既是一种学习方法，也指学得的树。

4.2 划分选择

属性划分：在划分过程中，每个判定测试序列（路径）对于同一个离散属性最多划分一次。
信息熵：信息熵越大系统的不确定性就越大，系统的可能性就越多。
Pk：在计算信息熵公式中，对于西瓜数据集，一共只有两类样本：‘好瓜’和‘坏瓜’，|y|=2。
基尼指数：直观理解，基尼指数越小‘纯度’越高，数据集中同一类样本占比越大。

4.3 剪枝

预剪枝步骤：首先，依据验证集计算不划分时验证集精度
然后，计算依据训练集以某个准则进行划分后的验证集精度
最后，比较划分前后的验证集精度，若划分前大于划分后，说明划分导致树泛化性能降低，不进行划分。若划分后大于划分前，说明划分提高了树的泛化性，进行划分
后剪枝步骤：首先，生成完整的树
其次，自下而上考察，将内部节点替换为叶节点，计算替换前后的验证集精度
最后，进行比较，若替换前验证集精度大于划分后，说明替换导致树泛化性能降低，不进行替换，保留原来子树。若替换后验证集精度大于替换前，说明替换提高了树的泛化性，进行替换

4.4 连续与缺失值

Ta：候选划分点的集合，每个划分点都是原相邻两特征取值点的中位数，对Ta中每个划分点都计算以其为分割点二分后信息增益，取使信息最大的分割点为作为分支的划分
解决第一个问题：样本有缺失值如何划分？：依据样本集中该属性上无缺数据的加权来计算改属性的信息增益，最终确定如何划分
解决第二个问题：测试样本在属性值上有缺失，如何划分测试样本？：用无缺样本的属性值的分布来估计缺失样本属性值的可能分布，对缺失测试样本进行加权，以不同的概率划分到不同的子节点中去，所有的概率加和为1

4.5 多变量决策树

单变量决策树轴平行原因：因为其内部节点中只依据一种特征进行划分
多变量决策树和单变量决策树差别：多变量决策树学习（神金网络）过程中不是为每个非叶节点寻找一个最优划分属性，而是对属性的线性组合进行测试，建立一个合适的线性分类器

习题

习题4.3

基于Python3.0的决策树手写算法实现和对西瓜书第四章决策树习题4.3的回答

习题4.4

参考

周志华. (2016). 机器学习. 清华大学出版社, 北京

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。