决策树(Decision Tree)

最新推荐文章于 2024-10-15 14:59:56 发布

原创最新推荐文章于 2024-10-15 14:59:56 发布

· 319 阅读

0 ·

版权

Machine Learning 专栏收录该内容

6 篇文章

订阅专栏

本文深入解析决策树算法的生成过程，包括特征选择、决策树构建及剪枝等关键步骤。探讨了信息增益、增益率和基尼指数在特征选择中的应用，并通过实例数据展示了如何基于这些指标进行决策树的构建。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

决策树的生成过程主要分为：特征选择、决策树生成、剪枝（预防过拟合）等。

特征选择的参数依据主要有信息增益、增益率、基尼指数等，来度量数据的纯度。

信息增益：

熵是随机变量不确定性的度量单位，取值越大，不确定性越大，数据纯度越低，从样本数据中随机抽取二个样本，其标签不同的概率越大。信息增益的计算方式为 “ 熵 - 条件熵”，反映为在一个条件下，信息不确定性减少的程度，数值越大越好，即为：

$Gain(D,a) = Ent(D) - \sum \frac{|D^{v}|}{|D|}Ent(D^{_{v}})$

以下为17条训练样本数据：

色泽    根蒂    敲声    纹理    脐部    触感    好瓜
青绿    蜷缩    浊响    清晰    凹陷    硬滑    是
乌黑    蜷缩    沉闷    清晰    凹陷    硬滑    是
乌黑    蜷缩    浊响    清晰    凹陷    硬滑    是
青绿    蜷缩    沉闷    清晰    凹陷    硬滑    是
浅白    蜷缩    浊响    清晰    凹陷    硬滑    是
青绿    稍蜷    浊响    清晰    稍凹    软粘    是
乌黑    稍蜷    浊响    稍糊    稍凹    软粘    是
乌黑    稍蜷    浊响    清晰    稍凹    硬滑    是
乌黑    稍蜷    沉闷    稍糊    稍凹    硬滑    否
青绿    硬挺    清脆    清晰    平坦    软粘    否
浅白    硬挺    清脆    模糊    平坦    硬滑    否
浅白    蜷缩    浊响    模糊    平坦    软粘    否
青绿    稍蜷    浊响    稍糊    凹陷    硬滑    否
浅白    稍蜷    沉闷    稍糊    凹陷    硬滑    否
乌黑    稍蜷    浊响    清晰    稍凹    软粘    否
浅白    蜷缩    浊响    模糊    平坦    硬滑    否
青绿    蜷缩    沉闷    稍糊    稍凹    硬滑    否

当选择“色泽”后，

$Ent(D)= -(\frac{8}{17}log_{2}\frac{8}{17} + \frac{9}{17}log_{2}\frac{9}{17}) = 0.998$