决策树模型

最新推荐文章于 2024-01-11 14:28:14 发布

土豆馅饼

最新推荐文章于 2024-01-11 14:28:14 发布

阅读量126

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/songchenglu123/article/details/103300551

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

决策树

决策树可以简单的理解为根据特征的取值而最终分成不同的类，也可以理解为简单的if-then的规则集合（树嘛）。那么怎么样选择节点是一个很有技术的问题。为什么呢，因为如果你的中间节点选的不错是不是就能够很容易的将决策树的各个节点很容易的分清楚了(说白了，你选的树分叉的地方越有区分度、分类越多越好你一个特征就能够把特征分好多类了，证明区分度多好！！)，那么问题来了怎么才算区分度好的特征，
所以引入概念：熵、条件熵、信息增益、信息增益比。这三个如此玄乎的概念其实是很容易理解的就是来衡量特征的区分度的。
先从熵开始，熵这个概念我最早是在高中物理中学到的，代表物体的稳定程度，所以同理这里的熵代表的是数据的稳定程度.熵H的公式：
$H(X)=\sum_{i=1}^n(p_{i}log p_{i})\tag{1.1}$
这就是熵的公式，另一个就是条件熵的公式：
$\sum_{i=1}^np_{i}H(y|X=x_i)\tag{1.2}$
条件熵表示特征X导致Y的熵，表示的是每个 $x_i$ 的概率乘以当 $X=x_i$ 时，对应的Y的熵
然后第三个概念就是信息增益，信息增益比较简单：就是熵减条件熵
$H(D|A)\tag{1.3}$
信息增益越大的特征对Y的影响越大的，选这样的特征具有很好的区分度。
然后就是信息增益比的概念，单反增加一个在一个概念后面加上一个比字儿，就表明他在考虑权重考虑考虑公平，因此在信息增益的基础上除以 $X = A$ 时Y的熵
$g_R(D,A)={g(D,A)\over{H_A(D)}}$