决策树 Decision Tree

最新推荐文章于 2024-05-22 11:25:42 发布

Dana-Song

最新推荐文章于 2024-05-22 11:25:42 发布

阅读量872

点赞数 1

分类专栏：机器学习文章标签： DT 决策树分类算法

本文链接：https://blog.csdn.net/shy19890510/article/details/79525831

版权

  决策树是一个 
 有监督的分类算法，在每次分裂中都 
 找到最容易区分一个集合和另一个集合的特征。 

  在寻找最优特征时， 
 DT算法保证了局部最优，但整体上看不一定是全局最优。 

 
 一、目标 target 

  因为决策树是一个有监督的算法，所以样本已经有一个变量用来表征这个样本的target，可能是正例/反例，也可以是多个类别（比如高/中/低） 

 
 二、模型输入 model input 

  在实际应用中，无论是离散特征还是连续特征，其实都可以用DT模型，但是处理方法略有不同 

 
 离散特征： 

  无序类别特征 

  有序类别特征， 通常会用数字代替特征，有序体现在顺序上 

 
 连续特征：连续变量 

  样本有限的时候，其实采样数据在特征上的取值仍然是离散的（数值非常多，可以理解为连续变量），如果考虑每个数值作为一个类别进行分析，计算量过大。 

  因此，可以根据这个连续变量的分布，选择几个数值对数据进行分类，有两种方法推荐： 

  （1）根据变量的分布，选取几个位置对数据分类。 比如根据25% 和75%的值，将连续特征划分为低/中/高等，数字可以为1/2/3 

  优点：计算简单 

  缺点：分隔位置也许不是最佳的分隔位置 

  （2）对特征取值进行排序，选择两个特征值的中点（选择特征值也可以）作为可能的分裂点，分隔数据，通过某些指标（比如信息增益）的比较选取最优的分裂点。 

  如果是分成两个特征，只需要选取一个最佳分裂点即可，如果分成多个特征，可以用嵌套循环的方式（先确定一个最佳分裂点，在每个分组中再选择最佳分裂点） 

  优点：分割位置最优 

  缺点：计算复杂 

  注意：

关注