sklearn 决策树

# 决策树

## 决策树参数:

### criterion:

entropy:信息熵\

gini:基尼系数

二者没有太大的的区别,但在十几应用中,信息熵对不纯度更加敏感,计算也更缓慢(涉及对数),但决策树生长也会更加精细。因此对于高维数据或者噪音很多的数据,因此信息熵非常容易发生过拟合的现象(高维度数据、噪音很多的数据),不是绝对的。

criterion如何影响模型:是确定不纯度的方法、帮忙找出最佳节点和最佳分枝,不纯度越低,决策树的拟合越好。

### 决策树基本流程

计算全部特征的不纯度指标——选取*不纯度指标最优的特征*来分枝——在第一个特征的分枝下,计算全部特征的不纯度指标

### 建立一棵树(代码实现)

### 剪枝调参

在不加限制的情况下,一棵决策树往往会生长到衡量不纯度的指标最优,或者没有更多特征可用为止,所以往往会过拟合(在训练集上表现良好,在测试集上表现糟糕)

max_depth:限定最大层数

min_samples_leaf:限定每片叶子的最小训练样本数,防止过拟合

min_sample_split:下你当每个节点最少的样本数,少于则不允许分支

max_features:限制分支时考虑的特征个数(强行设定会阻止特征数学习,即强行降维,可用PCA等方法代替)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值