机器学习第八周白盒模型-决策树

最新推荐文章于 2024-07-04 17:19:03 发布

rungedu

最新推荐文章于 2024-07-04 17:19:03 发布

阅读量973

点赞数

分类专栏：机器学习文章标签：决策树

本文链接：https://blog.csdn.net/long636/article/details/105624534

版权

机器学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

机器学习第八周白盒模型—决策树

学习目标

知识点描述：白盒模型——决策树

学习目标：

决策树相关概念以及模型算法推导
ID3、C4.5、CART决策树代码实现

学习内容

学习ing

白盒模型white box model 决策树：

决策树每个内部节点表示一个测试功能，即类似做出决策的过程，每个叶节点都表示一个标签，即在计算所有特征之后做出的决定。标签和分类表示导致这些类标签的功能的连接。从根到叶的路径表示分类规则。

在这里插入图片描述
决策树分类思想：从根节点开始，对实例的某个特征进行测试，根据测试结果将实例分配到其子节点，此时每个子节点对应着该特征的一个取值，如此递归的对实例进行测试并分配，直到达到叶节点，最后将实例分到叶节点的类中。

决策树模型：

假设给定的训练数据集
$D=（x_1,y_1）,(x_2,y_2),(x_3,y_3),...,(x_n,y_n)，其中x_i=(x_i(1),x_i(2),...,x_i(n))^T为输入的特征向量，n为特征个数，y_i属于\{1,2,...,K\}为类标记，i=1,2,3,...N ,N为样本容量。$
学习目标是：根据训练样本集构建一个决策模型，能够对它进行正确的分类。同时确保模型能够有较好的泛化能力。

模型优化的函数：这里叫做决策树损失函数，使用正则化的极大似然函数，为什么使用它？暂且不表。先看结果，就是使损失函数最小化。（因为从所有可能的决策树中选取最优决策树是NP问题，NP问题可以理解为在当前算力下会花费无限时间来穷举，因此可以采用启发式算法求近似最优解。NP问题，可以参考《算法导论》）

决策树的构建：特征选择、决策树的生产、决策树的修剪

决策树算法是一个递归选择最优特征的过程，并根据该特征对训练数据进行分割，使得各个子数据集有一个最好的分类的过程。

(1)开始：构建根节点，将所有训练数据都放在根节点，选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各子集有一个在当前条件下最好的分类。

（2）如果这些子集已经能够被基本正确分类，那么构建叶节点，将这些子集分到所对应的叶子节点。

（3）如果子集还不能被正确的分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构建相应的节点，如此递归，直至所有训练数据子集被基本正确分类，或者没有合适的特征为止。

（4）每个子集都被分到叶节点上。

为了获得更好的泛化能力，进行决策树剪枝。

如何进行特征选择，在每个特征上又如何确定分类的阈值？

为了找到最优的划分特征，这里使用不同的损失函数。下面先介绍概念：

信息熵：香农公式，表示信息量的大小。不确定度越大，数值越高。
$H=-\sum_{i=1}^{k}p_i log(p_i)$
条件熵：数学期望，在随机变量X的条件下随机变量Y发生的不确定性和。
$H(Y|X)=\sum_{i=1}^{n}p_i H(Y|X=x_i)$
信息增益：在划分数据集前后信息发生的变化成为信息增益。获取信息增益最高的特征就是最好的选择。以某特征划分数据集前后的熵的差值

信息增益率：
$g_R(D,A)=\frac{g（D,A）}{H_A(D)},分子是特征A对训练数据集D的信息增益，分母是训练数据及D关于特征A的值的熵$
基尼系数：表示在样本集合中一个随机选中的样本被错分的概率。
$Gini(P)=\sum_{i=1}^{K}p_k(1-p_k)$
在找到最优特征后，进行划分（阈值的选取？）