认识决策树算法及随机森林

最新推荐文章于 2024-07-24 17:21:03 发布

睹小物

最新推荐文章于 2024-07-24 17:21:03 发布

阅读量1k

点赞数 1

分类专栏： hacker_机器学习算法

本文链接：https://blog.csdn.net/Growing_hacker/article/details/89816012

版权

hacker_机器学习算法专栏收录该内容

8 篇文章 0 订阅

订阅专栏

认识决策树：

信息熵

信息增益

决策树是怎样对特征抽取后的结果进行计算的？

构造的决策树，随着深度的加深，容易造成过拟合现象：

认识决策树：

例子：对是否可以贷款进行决策树构造

决策树就好比：二叉树分类中，关键的信息分类标准占重要地位且放在首位（信息增益值大的特征）

信息熵：（描述信息的不确定性，值越大，不确定性越大）

信息熵

信息等价于消除不确定性

信息增益

特征A对训练数据集D的信息增益g(D,A),

定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差，即公式为：

简单例子进行了解：

决策树是怎样对特征抽取后的结果进行计算的？

决策树的每一层都需要根据最大信息增益来进行分类特征的选取。实际上，信息增益最大找的是样本之间差异最大的特征

构造的决策树，随着深度的加深，容易造成过拟合现象：

解决方法：1：剪枝法

dec = DecisionTreeClassifier(min_samples_leaf=1)    # min_samples_leaf=1  表示针对小于1的样本的叶子结点删除

2：随机森林（随机抽样建立多个决策树）

class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, bootstrap=True, random_state=None) 随机森林分类器

n_estimators：integer，optional（default = 10）森林里的树木数量

criteria：string，可选（default =“gini”）分割特征的测量方法

max_depth：integer或None，可选（默认=无）树的最大深度

bootstrap：boolean，optional（default = True）是否在构建树时使用放回抽样