criterion参数
数据划分标准,默认gini,数据量较少的时候可以指定为entropy
random_state参数
主要作用类似对数据测试集的划分、模型创建、生成随机数据集的时候指定一个特定的ID,用于在后续使用过程中数据集等能够固定下来,方便模型的调优。
splitter参数
加上random参数能够使生成树的过程更加随机,减少过拟合问题。
剪枝参数
避免训练集上表现好但测试集表现糟糕的情况。剪枝策略对决策树的影响巨大,正确的剪枝策略是优化
决策树算法的核心。
- maxdepth
用于限制树的最大深度。应用较为广泛,在高纬度低样本量时较为有效。建议从3开始测试,看拟合效果。 - min_samples_leaf
一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本,否则分枝就不会发生,或者,分枝会朝着满足每个子节点都包含min_samples_leaf个样本的方向去发生用于可以使模型变得更加平滑。一般从5开始。 - min_samples_spilit
一个节点必须要包含至少min_samples_split个训练样本,这个节点才允许被分枝,否则分枝就不会发生。