决策树的生成过程主要分为:特征选择、决策树生成、剪枝(预防过拟合)等。
特征选择的参数依据主要有信息增益、增益率、基尼指数等,来度量数据的纯度。
信息增益:
熵是随机变量不确定性的度量单位,取值越大,不确定性越大,数据纯度越低,从样本数据中随机抽取二个样本,其标签不同的概率越大。信息增益的计算方式为 “ 熵 - 条件熵”,反映为在一个条件下,信息不确定性减少的程度,数值越大越好,即为:
以下为17条训练样本数据:
色泽 根蒂 敲声 纹理 脐部 触感 好瓜
青绿 蜷缩 浊响 清晰 凹陷 硬滑 是
乌黑 蜷缩 沉闷 清晰 凹陷 硬滑 是
乌黑 蜷缩 浊响 清晰 凹陷 硬滑 是
青绿 蜷缩 沉闷 清晰 凹陷 硬滑 是
浅白 蜷缩 浊响 清晰 凹陷 硬滑 是
青绿 稍蜷 浊响 清晰 稍凹 软粘 是
乌黑 稍蜷 浊响 稍糊 稍凹 软粘 是
乌黑 稍蜷 浊响 清晰 稍凹 硬滑 是
乌黑 稍蜷 沉闷 稍糊 稍凹 硬滑 否
青绿 硬挺 清脆 清晰 平坦 软粘 否
浅白 硬挺 清脆 模糊 平坦 硬滑 否
浅白 蜷缩 浊响 模糊 平坦 软粘 否
青绿 稍蜷 浊响 稍糊 凹陷 硬滑 否
浅白 稍蜷 沉闷 稍糊 凹陷 硬滑 否
乌黑 稍蜷 浊响 清晰 稍凹 软粘 否
浅白 蜷缩 浊响 模糊 平坦 硬滑 否
青绿 蜷缩 沉闷 稍糊 稍凹 硬滑 否
当选择“色泽”后,
增益率:
信息增益准则对可取值数目较多的属性有所偏好,增益率准则对可取值数目较少的属性有所偏好。
基尼指数:
基尼指数原本是指在全部居民收入中,用于进行不平均分配的那部分收入所占的比例,0值代表剧名收入的绝对平均,正常值介于0~1之间。
以上述训练样本为例,先衡量属性“色泽”: