认识决策树算法及随机森林

目录

 

认识决策树:

信息熵

信息增益

决策树是怎样对特征抽取后的结果进行计算的?

构造的决策树,随着深度的加深,容易造成过拟合现象:


认识决策树:

例子:对是否可以贷款进行决策树构造

决策树就好比:二叉树分类中,关键的信息分类标准占重要地位且放在首位(信息增益值大的特征)

信息熵:(描述信息的不确定性,值越大,不确定性越大)

 

信息熵

信息等价于消除不确定性

信息增益

特征A对训练数据集D的信息增益g(D,A),

定义为集合D信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差,即公式为:

简单例子进行了解:

决策树是怎样对特征抽取后的结果进行计算的?

决策树的每一层都需要根据最大信息增益来进行分类特征的选取。实际上,信息增益最大找的是样本之间差异最大的特征

构造的决策树,随着深度的加深,容易造成过拟合现象:

解决方法:1:剪枝法

dec = DecisionTreeClassifier(min_samples_leaf=1)    # min_samples_leaf=1  表示针对小于1的样本的叶子结点删除

                  2:随机森林(随机抽样建立多个决策树)

class sklearn.ensemble.RandomForestClassifier(n_estimators=10criterion=’gini, max_depth=None, bootstrap=Truerandom_state=None)                                              随机森林分类器

n_estimatorsintegeroptionaldefault = 10) 森林里的树木数量

criteriastring,可选(default =“gini)分割特征的测量方法

max_depthintegerNone,可选(默认=无)树的最大深度

bootstrapbooleanoptionaldefault = True)是否在构建树时使用放回抽样

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值