python和机器学习 第十二章 决策树

一、什么是决策树

在这里插入图片描述

  • 非参数学习算法
  • 解决二分类问题
  • 天然解决多分类问题
  • 也能解决回归问题(将叶子节点中所有样本的平均值作为预测值)

二、信息熵

熵越大,数据越不稳定
熵越小,数据越稳定
在这里插入图片描述
pi表示这群样本中第i类样本所占的比例
例如:{1,0,0}
H = - 1 * log(1) = 0(最稳定,一定会取1)

from sklearn.tree import DecisionTreeClassifier
#树最高深度,熵(默认是基尼系数)
dt_clf = DecisionTreeClassifier(max_depth=2, criterion="entropy")
dt_clf.fit(X,y)

三、基尼系数

性质和信息熵相同
在这里插入图片描述

四、CART

  1. scikit-learn中实现决策树的方式:cart
  2. 复杂度:

–预测:O(logm)
–训练:O(nmlogm)

  1. 对决策树剪枝:降低复杂度,解决过拟合

1、利用参数max_depth可以解决过拟合
2、参数:min_samples_split =10
意义:对于一个节点来说,至少要有多少个样本数据,才对节点继续拆分
3、参数:min_samples_leaf=1
对于叶子节点来说,至少要有几个样本
4、参数:min_leaf_nodes=4
最多有多少个叶子节点

五、决策树解决回归问题

六、决策树的局限性

决策边界都是与x、y轴平行的

https://blog.csdn.net/u012328159/article/details/70184415

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值