博客整理自 《统计学习方法》李航著
一、决策树关键问题
1.选择特征
2.树的生长和终止
3.如何剪枝
二、决策树基本概念
基尼指数(Gini index):
假设有K个类,样本点属于第k类的概率为pk:
(式1)
对于给定的样本集合D,K是类的个数,Ck是属于第k类的样本子集,其基尼指数为:
(式2)
在特征A的条件下,集合D的基尼指数为:
(式3)
信息增益(information gain):
随机变量X的熵(entropy):
(式4)
条件熵(conditional entropy):
(