熵的公式是:负 Pi log2(Pi),把所有的可能出现的类的结果加和
Pi 是给定类(即类 i)中的样本的分数/概率
熵基本上与纯度对立,所以,在一种极端情况下,你的所有样本可以属于相同类,熵将为 0。
信息增益定义为父项熵减去分割父项后生成的子项的熵的加权平均。
决策树会最大程度地提高信息增益来选择进行分割的特征
熵的公式是:负 Pi log2(Pi),把所有的可能出现的类的结果加和
Pi 是给定类(即类 i)中的样本的分数/概率
熵基本上与纯度对立,所以,在一种极端情况下,你的所有样本可以属于相同类,熵将为 0。
信息增益定义为父项熵减去分割父项后生成的子项的熵的加权平均。
决策树会最大程度地提高信息增益来选择进行分割的特征