决策树快问快答

最新推荐文章于 2022-05-15 21:31:25 发布

闵帆

最新推荐文章于 2022-05-15 21:31:25 发布

阅读量523

点赞数 1

分类专栏：机器学习基础文章标签：机器学习

本文链接：https://blog.csdn.net/minfanphd/article/details/109487812

版权

机器学习基础专栏收录该内容

17 篇文章 6 订阅

订阅专栏

决策树是数据挖掘的一个重要分支，这里分享一下学习心得。仅讨论what和why，不涉及how.

什么是决策？
决策是人类天天干的事情，如中午吃啥，股票买啥。
什么是决策树？
为决策而构建的树。它是人类知识的一种体现，因此具有天然的可解释性优势。
如图1所示，出门前先看天气，如果出太阳，就走第1个分支。如果湿度为正常，则走接下来的第2个分支。最终决定去打网球。
图1. 决策树例
决策树的有哪些获得方式？
别人（老师、师父）教，自己从实际工作中总结，利用机器从实际数据中学习。
决策树生成算法的核心是什么？
确定当前数据使用哪个属性来分割。不同的算法可能使用不同的属性。
属性选择的根据是什么？
哪个属性把数据能分得更纯一些。所谓的“纯”与“混乱”所对应。相应地，有属选择的启发式信息。
有哪些常见的启发式信息？
信息增益（离散属性）、信息增益率（连续属性）、基尼指数。
为什么计算信息增益时，仅考虑单个属性？
决策树的构建是递归的。把数据分成几个子集后，每个子集考虑自己的根结点所采用的属性即可。
如何评价决策树的好坏？
使用测试集，分类精度越高的决策树越好。如果是非平衡数据，或本身带误分类代价数据，应采用平均误分类代价。
为什么基于信息增益的决策树获得了最大的成功？
在保证训练集中精度的条件下，它在绝大多数情况下能够获得最小（叶节点最少）的决策树。
为什么决策树越小越好？
根据奥克姆剃刀原理，知识表达越简洁，泛化能力越强。
如果决策树太大了怎么办？
剪枝，牺牲训练集上的精度，提高泛化能力，最终提高测试集上的精度。
有哪些剪枝技术？
前剪枝、后剪枝。
决策树的分界面都是平行于坐标轴的，有时效果不好，怎么办？
使用Oblique决策树，它可以考虑多个属性的融合。
决策树的目标函数是什么？
很多机器学习算法（如线性回归）有目标函数，并可以利用梯度下降法（或更直接的矩阵运算）求最优解。由于树型比（线性回归的）超平面复杂，Quinlan并未给出ID3决策树的目标函数。如果强行要写的话，其基础为分类误差，正则项与树的大小相关。遗憾的是，即使写出来了，也无法直接求解。
如果数据有缺值怎么办？
修改相应的启发式信息计算公式，同时考虑缺值的比例。
无法处理图像数据怎么办？
先用神经网络（含深度网络）输出特征向量，再基于它构建和使用决策树。

根据反馈再增加内容…

闵帆

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
决策树快问快答

决策树是数据挖掘的一个重要分支，这里分享一下学习心得。什么是决策？决策是人类天天干的事情，如中午吃啥，股票买啥。什么是决策树？为决策而构建的树。它是人类知识的一种体现，因此具有天然的可解释性优势。如图1所示，出门前先看天气，如果出太阳，就走第1个分支。如果湿度为正常，则走接下来的第2个分支。最终决定去打网球。图1. 决策树例决策树的有哪些获得方式？别人（老师、师父）教，自己从实际工作中总结，利用机器从实际数据中学习。决策树生成算法的核心是什么？确定当前数据使用哪个属性来分
复制链接

扫一扫

专栏目录