机器学习-决策树（8）

最新推荐文章于 2022-10-09 15:15:11 发布

moonbaby1

最新推荐文章于 2022-10-09 15:15:11 发布

阅读量233

点赞数

分类专栏： # 机器学习算法

本文链接：https://blog.csdn.net/hhcharming/article/details/105780033

版权

14 篇文章 0 订阅

订阅专栏

决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。

from sklearn.tree import DecisionTreeClassifier

dt_clf = DecisionTreeClassifier(max_depth=2, criterion="entropy", random_state=42)
dt_clf.fit(X, y)

非参数学习算法，可以解决分类问题，也可解决回归问题（叶子节点的平均值）

问题：

每个节点在哪个维度做划分，某个维度在哪个值做划分

熵在信息论中代表不确定的度量。

如果是两类的话，信息熵：

可以看出，两个类别时，概率分别为0.5时，信息熵是最大的，也最不稳定

划分后信息熵降低（使系统更确定）

使用信息熵

from sklearn.tree import DecisionTreeClassifier

dt_clf = DecisionTreeClassifier(max_depth=2, criterion="entropy", random_state=42)
dt_clf.fit(X, y)

基尼系数越高，整体随机性越强，不确定越高

使用基尼系数

from sklearn.tree import DecisionTreeClassifier

dt_clf = DecisionTreeClassifier(max_depth=2, criterion="gini", random_state=42)
dt_clf.fit(X, y)

复杂度

预测：O(logm)

训练：O(n*m*logm)

减枝：降低复杂度，解决过拟合

叶子节点平均值投票

关注

专栏目录