决策树
- 简单来说,决策树,就是将数据集转化为一棵树,按照这棵树的规则,对于样本进行归类。
- 决策树是一种非参数监督学习方法,用于分类与回归。 目标是创建一个模型,从数据特征中进行学习,进而推断出的简单决策规则,用来预测目标变量的值。
- 决策树是一种树形结构,通过做出一系列决策(选择)来对数据进行划分,这类似于针对一系列问题进行选择。
- 决策树的决策过程就是从根节点开始,测试待分类项中对应的特征属性,并按照其值选择输出分支,直到叶子节点,将叶子节点的存放的类别作为决策结果。
决策树的大概构建过程
- 这里只会大概说,详细的请看:
- 决策树由若干个节点构成,根节点存放着所有样本的数量,旗下的每个节点存放着一定数量的样本,根据从特征中得出的条件,逐步的分化节点,一直到指定的深度,或者所有的叶子节点都只是一个类别,所有的样本数量小于指定的最小分类的样本数量。
- 分裂的时候,根据信息熵求出每个特征的信息增益,然后找出最大信息增益的特征
- 求信息增益的时候,有个问题就是,特征中,有俩种类型,一种为离散型,一种为连续型;
- 对于离散型,一般就是 类似于 是与不是的值,直接求信息增益就可以了
- 对于连续值,需要将特征进行排序,然后根据对应的标签,找出分界点,然后将所有的分界点分别求信息增益
- 然后找出所有的信息增益中,最大的信息增益,不断地根据最大的信息增益的特征,进行分裂属性。
构建决策树有三种算法
- ID3
- C4.5
- CART(Classification And Regression Tree)
参数与实现说明
- sklearn中提供的决策树是CART模型。因此构建的树为二叉树结构。
- 参数max_feature,值切分时ÿ