信息增益是熵值减少的大小
如果决策树中选了ID 特征,或者是其他获得比较稀疏分类的特征,那么信息增益会是最大的,得到的熵值会是0,所以ID3其实不是很好
C4.5要除以自身熵,
预剪枝用的比较多一些
叶子节点 样本数指的是该叶子中最少的数量
信息增益指的是俩次熵减的量
后减枝 (1) 9×0.4938 + 1×a samples*gini = Tleaf * a
(2) 3 * 0 + 3 * 0 + 3*0.4444 + 3*a
比较(1)(2)的大小,a是系数,a越大,控制叶子节点数不同太多
(1)(2) 哪个值大,哪个效果好
然而预减枝比较好计算实现,用的也比较多
决策树的调用
GridSearchCV,搜索参数
好好的学scikitLearn
API Reference — scikit-learn 1.0.2 documentation