【吴恩达机器学习笔记】Part2-Week4（上）决策树（Decision Trees）

最新推荐文章于 2024-06-17 22:44:23 发布

hotpants

最新推荐文章于 2024-06-17 22:44:23 发布

阅读量699

点赞数 4

分类专栏：吴恩达机器学习笔记文章标签：决策树算法

本文链接：https://blog.csdn.net/hotpants/article/details/128724845

版权

吴恩达机器学习笔记专栏收录该内容

10 篇文章 8 订阅

订阅专栏

决策树

案例：修猫分类器；有一组包含猫和狗的图片数据集，根据耳朵形状（ear shape），脸的形状（face shape），胡子（whiskers）的特征判断图片上的是不是猫。
在这里插入图片描述
如果耳朵形状是尖尖的，脸的形状是圆的，那么判断为猫；
如果耳朵形状是尖尖的，脸的形状是不圆，那么判断为非猫；
如果耳朵形状是松软的，有胡子，那么判断为猫；
如果耳朵形状是松软的，无胡子，那么判断为非猫。
决策树如下图：
在这里插入图片描述
术语：
根节点（root node）：最顶端的节点；
决策节点（decision nodes）：所有决定下一步走向的节点，包括根节点；图中所有椭圆节点；
叶子结点（leaf nodes）：树最底端的节点，给出预测结果的节点；图中所有矩形节点。

1.2 学习过程

决策1：如何在每个节点处选择合适的特征/属性（How to choose what feature to split on at each node）？
纯度最大化/最小化（Maximize or minimize purity）：比如第一个节点，有三种可能的特征，但只有选择耳朵形状时，节点所分出的两个分类中，猫的占比分别最大和最小；因此选耳朵形状作为该节点的特征。
决策2：什么时候停止划分（When do you stop splitting）？

当节点获得了100%的分类结果（When a node is 100% one class）；
当划分节点会导致超过树的最大深度（When splitting a node will result in the tree exceeding a maximum depth）；
当纯度值的增长低于一定阈值（When improvements in purity score are below a threshold）；
当节点中案例数量低于一定阈值（When number of examples in a node is below a threshold）。

2.1 纯度（Measuring purity）

熵——衡量纯度的概念（Entropy as a measure of impurity）
在这里插入图片描述
如图，p1指代一组分类结果中猫的占比（剩下的是狗）；H(p1)是熵；图中为熵与p1的关系；可见熵随着纯度的增大呈现先增大后减小的趋势；在p1=0.5时（如，3个猫3个狗）熵达到最大值1，在p1分别为0（6个狗）和1（6个猫）两个端点时，熵最小，值为0。
图中熵函数的公式：
首先定义集合中除了猫之外的小动物占比：
${p_0} = 1 - {p_1}$
熵函数：
$H\left( {{p_1}} \right) = - {p_1}{\log _2}\left( {{p_1}} \right) - {p_0}{\log _2}\left( {{p_0}} \right)$
也可记为：
$H\left( {{p_1}} \right) = - {p_1}{\log _2}\left( {{p_1}} \right) - \left( {1 - {p_1}} \right){\log _2}\left( {1 - {p_1}} \right)$

为了计算，这里设定：
$0{\log _2}\left( 0 \right) = 0$
选用2为底数而非e或者10，是为了让极大值为1，换成其它底数相当于现有函数图像上下等比例伸缩。
Gini函数也可以用作熵函数，但本课简单起见使用这里介绍的entropy criteria函数。

2.2 如何在节点选择特征：信息增益（Choosing a split: information gain）

信息增益（information gain）：衡量从上一节点分裂出两个节点后，这种分裂方法对应的熵的减少量（the reduction in entropy that you get in your tree resulting from making a split）。
在这里插入图片描述
在本例中，对三种可能的分类方式分别计算信息增益：将分成的两个类别的熵值通过公式整合成一个标准，并与分类前的熵值相减，获得该步分类使数据的熵降低的相对值（reduction in entropy）；最终取降低熵最大的分类方法特征，即耳朵形状（分类后熵降低了0.28）。
计算信息增益的用处，除了判断该节点的特征如何选择；还可以用于判断是否终止继续分类（split），因为如果分类前后的信息增益过小，这意味着再分下去只是徒增决策树的规模，已经失去了分类的意义，既可以停止分类了。
在这里插入图片描述
信息增益的计算公式：
$InformationGain=H\left( {p_1^{root}} \right) - \left( {{w^{left}}H\left( {p_1^{left}} \right) + {w^{right}}H\left( {p_1^{right}} \right)} \right)$

2.3 整合（putting it together）

Start with all examples at the root node.
Calculate information gain for all possible features, and pick the one with the highest information gain.
Split dataset according to selected feature, and create left and right branches of the tree.
Keep repeating splitting process until stopping criteria is met:
1. When a node is 100% one class
2. When splitting a node will result in the tree exceeding a maximum depth
3. Information gain from additional splits is less than threshold
4. When number of examples in a node is below a threshold

根据决策树的特征，其实现应该使用递归算法（recursive algorithms）。

2.4 独热编码（Using one-hot encoding of categorical features）

动机：上例中的特征均分为两个离散值（两种类别），如果某特征需要两个以上分类离散值怎么办？（What if you have features that can take on more than two discrete values）
案例：如果修猫分类器中，耳朵类型有三种：尖尖的（pointy ears）、松软的（floppy ears）和圆润的（oval ears）；一种直接处理方法是，在一个节点类型耳朵形状下按照上述三个特征，分出三个节点的分支；另一种one-hot处理方法则是，将尖尖耳朵、松软耳朵和圆润耳朵分别作为单独的特征，其分类的结果为1（是尖尖耳朵）和0（非尖尖耳朵），将这三个特征与脸的形状和胡子等特征并列放在一起进行分析。
在这里插入图片描述
观察上表发现，pointy ears、floppy ears和oval ears对应的每行必有一个为1剩下几个为0，因此叫做one-hot encoding。
因为所有特征现在均可以获得二分的分类值，one-hot encoding也可以用于逻辑回归模型中。