决策树

最新推荐文章于 2024-01-09 10:38:07 发布

水墨小龙虾

最新推荐文章于 2024-01-09 10:38:07 发布

阅读量1.1k

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/jianhong1990/article/details/48252599

版权

6 篇文章 0 订阅

订阅专栏

决策树（Decision Tree）是一种简单但是广泛使用的分类器。通过训练数据构建决策树，可以高效的对未知的数据进行分类。

纯度。p(i|t)表示给定节点t中属于类i的记录所占的比例。有时省略节点t，直接用pi表示该比例。任意节点的类分布都可以记作(p0,p1),其中p1=1-p0。p0和p1的差值表示节点的不纯性的程度，差值越大，不纯度越小。
进行属性划分时尽量选择纯度高的。
1. 二元属性的划分。分别计算2个属性的增益，选择总和最小的。
2. 标称属性的划分。分别计算各路属性的增益，选择总和最小的。
3. 连续属性的划分。排序取中间值计算增益。

一种最直观的方式是当每个子节点只有一种类型的记录时停止，但是这样往往会使得树的节点过多，导致过拟合问题（Overfitting）。另一种可行的方法是当前节点中的记录数低于一个最小的阀值，那么就停止分割，将max(P(i))对应的分类作为当前叶节点的分类。

•噪音数据
•缺少代表性数据
•多重比较

关注

专栏目录