决策树(CART)

  • ID3、C4.5算法都是基于信息论的熵模型,CART分类树算法使用基尼系数来替代信息增益比,基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,体征越好。这和信息增益是相反的。

在分类问题中,假设又K个类别,第K个类别的概率为P,则基尼系数的表达式为:

在这里插入图片描述

对于二分问题来说
在这里插入图片描述

在这里插入图片描述

  • 对于样本D,如果根据特征A的某个值a,把D分成D1和D2两部分吧,则在特征A的条件下,D的基尼系数表达式为:
    在这里插入图片描述

决策树的损失函数

在这里插入图片描述在这里插入图片描述

  • 节点经验熵
    在这里插入图片描述
  • 原式第一项
    在这里插入图片描述

CART树的剪枝(正则化)

在这里插入图片描述

  1. α为正则化参数,这和线性回归的正则化一样,α越大对应着剪枝越厉害
  2. C(T)为训练数据的预测误差,分类树的用基尼系数度量,回归树是均方差
  3. |Tt| 是子树T的叶节点的数量
from sklearn.tree import export_graphviz  #决策树可视化
from sklearn.linear_model import LogisticRegression #逻辑回归
from sklearn.tree import DecisionTreeClassifier  #分类决策树
from sklearn.tree import DecisionTreeRegressor  #回归决策树
from IPython.display import Image  #IPython 显示图像
import pydotplus  #将决策树结构化显示
param = {'max_depth':[3,5,6,7,8,9],'min_samples_split':[2,3,4,5,6]}  #设定参数
clf = DecisionTreeClassifier()  #树模型,学习器
grid = GridSearchCV(clf,param,cv=10,refit=True,verbose=2)  #将学习器传入,进行交叉验证找到最秀的参数
#refit :找到最秀参数后refit重新拟合
#verbose : 输出日志
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Weidong He.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值