分类决策树

最新推荐文章于 2024-08-04 21:08:26 发布

flashTianjiao

最新推荐文章于 2024-08-04 21:08:26 发布

阅读量477

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/flashtianjiao/article/details/74940972

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1、原理

决策树是基于特征对实例进行分类的树形结构。
决策树学习算法包括：特征选择、树的生成和树的剪枝。

2、特征选择

2.1.ID3
(1)、针对当前的集合，计算每个特征的信息增益
(2)、选择信息增益最大的特征作为当前节点的决策决策特征
(3)、根据特征不同的类别划分到不同的子节点（比如年龄特征有青年，中年，老年，则划分到3颗子树）
(4)、继续对子节点进行递归，直到所有特征都被划分

g (D | A) = H (D) - H (D | A)

$g(D|A) = H(D) - H(D|A)$

H (D) = - \sum k = 1 k | C k | D l o g 2 | C k | D

$H(D)=-\sum_{k=1}^k \frac{|C_k|}{D}log_2\frac{|C_k|}{D}$

H (D | A) = \sum i = 1 n D i D H (D i)

$H(D|A)=\sum_{i=1}^n\frac{D_i}{D}H(D_i)$
其中数据集为D,

Di $D_i$ 是D的子集，H(D)是数据集D的熵，

H(Di) $H(D_i)$ 是数据集

Di $D_i$ 的熵，H(D|A)是数据集D对特征A的条件熵.

Ck $C_k$ 是D中属于第k类的样本子集。n是特征A取值的个数，k是类的个数。

举个栗子：
当前特征是天气状况，分类是明天是否会下雨
现在天气特征阴天是7个，4个是明天会下雨，3个是明天不下雨
现在天气特征多云是3个，1个是明天会下雨，2个是明天不下雨

H(阴天)= $-(\frac{4}{7}log_2\frac{4}{7}+\frac{3}{7}log_2\frac{3}{7})$
H(多云)= $-(\frac{4}{7}log_2\frac{4}{7}+\frac{3}{7}log_2\frac{3}{7})$
H(D)= $-(\frac{5}{10}log_2\frac{5}{10}+\frac{5}{10}log_2\frac{5}{10})$
H(D|天气状况) = $-(\frac{7}{10}H(阴天)+\frac{3}{10}H(多云))$
g(D|天气状况) = H(D)-H(D|天气状况)