决策树方法小结

本文总结了常见的决策树模型,包括ID3、C4.5、CART、CHAID和RandomForest,介绍了各自的基础知识和关键点,如熵、信息增益、信息增益率和Gini指数,并探讨了决策树在数据挖掘和机器学习中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

决策树

  决策树是常见且强大的分类器,简单地解释为,if-then判断规则组成的形如树状的预测模型。
  我在这里总结了几种常见决策树模型(不做过多原理解释,只总结方法),ID3(多叉树),C4.5(多叉树),C5.0(多叉树),CART(二叉树),CHAID(多叉树),RandomForest(二叉树群)。其生成树的思想大同小异,区别在于属性选择指标和树的形式。

基础知识

  几个基础概念需要了解,熵,信息增益,信息增益率,Gini指数等。
  
  物理意义 - - 描述了物质的混乱程度。
  数学定义 - - Entropy=iPilnPi
  其中,Pi表示y=i的样本的比例(概率)。
  信息增益
  物理意义 - - 用于衡量属性F降低样本集合S混乱程度多少。
  数学定义 - -
  G(S,F)=Entropy(S)j|Sj||S|En

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值