原创: 袁恒 Refinitiv创新实验室ARGO 9月17日
审核: 施天璐 单华 傅佳 编辑:张翔
一 什么是决策树
决策树是机器学习方法中的一种监督学习算法,表示根据特征对样本进行分类的树形结构,可以用于分类和回归。
它的思路大概是这样的:从根节点开始,按照训练数据的每个特征进行计算,根据每个特征的不确定性将训练数据分配到其子节点(分支),沿着该分支可能达到叶子节点或者到达另一个内部节点,然后对剩余的特征递归执行下去,直到抵达一个叶子节点。当都到达叶子节点时,我们便得到了最终的分类结果。把这种决策分支画成图形很像一棵树的枝干,也就是决策树。
假如有一份关于跳槽的调查问卷,整理后发现,工资涨幅,公司性质,加班多少,距离远近4个指标对员工跳槽的影响比较大,从中抽取出14条数据,并且已知每条记录都有是否跳槽的结果。
工资涨幅 |
公司性质 |
加班 |
距离 |
跳槽 |
低 |
外企 |
多 |
近 |
否 |
低 |
外企 |
多 |
远 |
否 |
高 |
外企 |
多 |
近 |
是 |
一般 |
国企 |
多 |
近 |
是 |
一般 |
互联网公司 |
少 |
近 |
是 |
一般 |
互联网公司 |
少 |
远 |
否 |
高 |
互联网公司 |
少 |
远 |
是 |
低 |
国企 |
多 |
近 |
否 |
低 |
互联网公司 |
少 |
近 |
是 |
一般 |
国企 |
少 |
近 |
是 |
低 |
国企 |
少 |
远 |
是 |
高 |
国企 |
多 |
远 |
是 |
高 |
外企 |
少 |
近 |
是 |
一般 |
国企 |
多 |
远 |
否 |
假如你是IT穷屌丝一枚,有一个跳槽的机会:工资涨幅—高,公司性质—互联网公司,加班—多,距离—远,那么你犹豫是否应该跳呢?这个问题可以通过决策树来实现。
那决策树有哪些特点?决策树在sklearn中如何使用?带着这个问题请继续往下看,决策树怎么帮助我们解决现实生活中的问题的。
二 决策树的学习过程
-
特征选择
特征选择是指从训练数据的特征中选择一个特征作为当前节点的分裂点,怎么选择特征有着很多不同量化评估标准标准,从而衍生出不同的决策树算法。
-
决策树生成
根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树停止生长。树结构来说,递归结构是最容易理解的方式。
-
剪枝
决策树容易过拟合,一般来需要剪枝,缩小树结构规模、缓解过拟合。剪枝技术有前剪枝和后剪枝两种。
三 基本概念
1. 信息熵
信息熵是度量随机变量的不确定性。
定义:假设随机变量的可能取值有,对于每一个可能的取值
,其概率
,因此随机变量的熵:
-
在分类问题中的意义:信息熵表示分类的不确定性。样本集纯度越高,熵越小;反之,成分越复杂,纯度越低,则熵越大。
-
<