机器学习 -- 《机器学习》（周志华）第四章笔记

最新推荐文章于 2023-02-22 19:29:20 发布

小灰机大

最新推荐文章于 2023-02-22 19:29:20 发布

阅读量378

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/Zhou_Yulong/article/details/120008268

版权

机器学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

机器学习 – 《机器学习》（周志华）第四章笔记

摘要

本章为决策树(decision tree)内容，决策树是一种较为常见的机器学习方法。决策树基于“树”型，是一种常见的自然判断，是一种“判定”的过程。

笔记

决策树学习的目的是为了产生一个泛化能力强，也即是处理没有见过的示例的能力强的决策树
决策树基本流程遵循“分而治之”(divide-and-conquer) 策略
决策树过程：是一个递归过程，有三种情况会导致递归返回
a. 当前节点包含的样本属于同一类别，不需要进行划分
b. 当前属性集为空或者所以样本属性值相同
c. 当前节点包含的样本集合为空，无法划分
信息熵(information entropy)是度量样本集合纯度的一种指标，纯度越高，说明决策树的分支结点包含的样本越多属于同一类别。计算方法
增益率
信息增益会对取值数目较多的属性进行偏好选择，但此种选择并不利于进行决策，因此在更多时候选择使用“增益率” 来选择最优划分属性
基尼指数
CART 决策树使用“基尼指数” 进行属性划分。
剪枝处理
剪枝(pruning) 是用来处理过拟合的一种主要方法。因为决策树过程不断递归重复，就可能会出现枝条过多，从而出现过拟合的情况
剪枝测基本策略分为： “预剪枝” 和 “后剪枝”
预剪枝
在生成过程中，划分前先进行估计，如果当前节点的划分不能带来决策树泛化性能提升，那么就停止划分
后剪枝
当整个决策树已经生成，在叶子节点到根节点的方向对非叶子结点进行考察
连续值的处理
在进行判定中，可以将连续值进行离散化
缺失值处理
1. 可利用已知的属性值进行预判概率，从而进行划分处理

延伸

注

小灰机大

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习 -- 《机器学习》（周志华）第四章笔记

机器学习 – 《机器学习》（周志华）第四章笔记摘要本章为决策树(decision tree)内容，决策树是一种较为常见的机器学习方法。决策树基于“树”型，是一种常见的自然判断，是一种“判定”的过程。笔记决策树学习的目的是为了产生一个泛化能力强，也即是处理没有见过的示例的能力强的决策树决策树基本流程遵循“分而治之”(divide-and-conquer) 策略决策树过程：是一个递归过程，有三种情况会导致递归返回a. 当前节点包含的样本属于同一类别，不需要进行划分b. 当前属性集为
复制链接

扫一扫