决策树(Decision Tree)学习小结

本文详细介绍了决策树的学习过程,包括信息熵、条件熵、信息增益、增益率等特征选择标准,以及ID3、C4.5和CART算法的决策树生成原理。同时,探讨了预剪枝和后剪枝两种策略来防止过拟合,以提高决策树的泛化能力。
摘要由CSDN通过智能技术生成

决策树

策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。(概念摘自百度百科

特征选择

在这里先引入信息熵和信息增益的定义

信息熵(information entropy)

在信息论与概率论中,熵(entropy)用于表示随机变量不确定性的度量,越不确定的事物,它的熵就越大。因此信息熵是度量样本集合纯度最常用的一种指标。
假定当前集合 D D 中第k类样本所占的比例为 p i ( i = 1 , 2 , 3 , . . . ) ,则D的信息熵定义为

H(D)=k=1npil
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值