特征的选择决定哪个特征先来划分空间。一般决策树算法特征选择通过信息增益或信息增益比来确定。ID3,C4.5的树生成通过信息增益和信息增益比概念生成。
概念及理解
信息增益:
g(D,A)=H(D)−H(D|A)(1)
式子1中 H(D) 代表数据集D(学习集中的类)的信息熵,信息熵指的是变量的不确定性,变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。
公式理解
H(D)=∑i=1kCkD
特征的选择决定哪个特征先来划分空间。一般决策树算法特征选择通过信息增益或信息增益比来确定。ID3,C4.5的树生成通过信息增益和信息增益比概念生成。
信息增益: