【机器学习基础算法系列】【叁】全面详解决策树(Decision Tree)

最新推荐文章于 2022-11-21 12:02:07 发布

蜗牛先生上坡不费力

最新推荐文章于 2022-11-21 12:02:07 发布

阅读量201

点赞数 1

分类专栏：机器学习基础算法文章标签：算法机器学习线性代数矩阵人工智能

本文链接：https://blog.csdn.net/snail0729/article/details/103712239

版权

6 篇文章 0 订阅

订阅专栏

符号定义

$D$ 为训练数据集， $∣ D ∣$ 为训练数据集样本个数
$C$ 为样本所属类别， $C_k$ 表示样本所属为第 $k$ 类， $C_k|$ 表示所属第 $k$ 类的样本数， $\sum_{k=1}^K|C_k|=|D|$
$A$ 为特征集， $A_k$ 表示第 $k$ 个特征，$a_i\in {a_1,a_2, … , a_n} $是$ A_k $的所有取值，$ a_i $可以把数据集分为$ n $个子集，$ D_i \in {D_1,D_2, … , D_n} $，$ \sum_{k=1}^K|D_k|=|D|$
$D_{ik}$ 为子集 $D_i$ 属于 $C_k$ 的样本集合，即 $D_{ik}=D_i \cap C_k$ ， $D_{ik}|$ 为子集 $D_i$ 属于 $C_k$ 的样本个数

数据集 $D$ 的经验熵 $H (D)$
$H(D)=-\sum_{k=1}^K \frac {|C_k|}{|D|}log_2\frac {|C_k|}{|D|}$
特征 $A$ 对数据 $D$ 的经验条件熵 $H (D ∣ A)$

$H(D|A)=\sum_{i=1}^n \frac {|D_i|}{|D|}H(D_i)=-\sum_{i=1}^n \frac {|D_i|}{|D|}\sum_{k=1}^K\frac {|D_{ik}|}{|D_i|}log_2\frac {|D_{ik}|}{|D_i|}$

其中 $n$ 为特征A的取值个数。

信息增益： $g (D, A) = H (D) - H (D ∣ A)$
信息增益率： $g_r(D,A)=\frac {g(D,A)} {H_A(D)}$ ，其中 $H_A(D)=-\sum_{i=1}^n \frac {|D_i|} {|D|} log_2 \frac {|D_i|} {|D|}$ ，其中 $n$ 为特征A的取值个数。

已生成的整数T，给定的参数α

计算每个节点的经验熵， $H_t(T)=-\sum_{k}(\frac {N_{tk}}{N_t})*log(\frac {N_{tk}}{N_t})$ ，损失函数为 $C_{\alpha}(T)=\sum_{t=1}^{|T|}N_tH_t(T)+\alpha|T|$
递归的从叶节点回溯，自下而上的比较回溯前树 $T_b$ 和回溯后 $T_a$ 的损失函数，如果 $C_{\alpha}(T_a) \le C_{\alpha}(T_b)$ ，即剪枝后整树的损失函数减小了，那么将该叶子节点以下的树剪枝，将该叶子设置为新的父节点
返回(2)，直到不能继续位置，得到损失最小的子树 $T_{\alpha}$

以上过程可以使用动态规划实现

同ID3和C4.5一样，自下而上的剪枝，比较剪枝前后的loss变化，如果减小了就剪枝，否则保留

关注