建立选择合适的决策树提高算法效果
1.学习过程(Learning Process )
关键决策:
1.How to choose what feature to split on at each node?(如何选择在每个节点上使用划分的特征)尽可能提高纯度
2.When do you stop splitting?(在什么时候停止划分)
- 限制决策树深度的一个原因可能是确保我们的树不会变得太大、太笨重,同时小巧的树不容易导致过拟合
- 另一个标准是如果优先级分数的提高,低于某个阈值,如果分裂个节点导致最小的纯度提升,实际上是提高了纯度,这也是让树小,降低过拟合的风险
- 如果一个节点的样本数低于某个阈值可能也会决定停止分裂
2.纯度(Measuring purity)
Entropy熵,熵越大越不纯洁