决策树的特征选择标准有两种:信息增益,信息增益比
0.熵
指不稳定程度。熵越大,不稳定程度越高,则越容易分裂。决策树中也指某结点内含信息量较多,分类能力较差.
计算公式:
- H(X)=-∑Pi logPi
其中,Pi为随机变量X在样本空间的分布,即第i个类型出现的概率。∑为i到n求和。n为特征取值种类数量.
PS:为何使用这样的一个函数?XlogX的函数图像:
|
PS:为何使用这样的一个函数?XlogX的函数图像:
|