机器学习之决策树

本文深入探讨了决策树的生成算法,包括ID3的基于信息增益的选择特征,C4.5采用信息增益比来修正ID3的问题,以及CART算法使用基尼指数选择最佳切分点。此外,还讨论了决策树的剪枝策略以防止过拟合,以及在sklearn库中的应用和常见面试问题。
摘要由CSDN通过智能技术生成

决策树几种常见的生成算法

ID3算法

  1. 选择信息增益最大的特征
    信息增益的定义:
           已知特征X的信息而使得类Y的信息的不确定性减少的程度。
    g ( D , A ) = H ( D ) − H ( D ∣ A ) g\left( {D,A} \right){\rm{ = }}H\left( D \right){\rm{ - }}H\left( {D|A} \right) g(D,A)=H(D)H(DA)信息增益具体计算方法:
    1. 计算数据集的经验熵H(D)
      H ( D ) = − ∑ k = 1 K ∣ C k ∣ ∣ D ∣ log ⁡ 2 ∣ C k ∣ ∣ D ∣ H\left( D \right){\rm{ = - }}\sum\limits_{k = 1}^K {\frac{ {\left| { {C_k}} \right|}}{ {\left| D \right|}}{ {\log }_2}\frac{ {\left| { {C_k}} \right|}}{ {\left| D \right|}}} H(D)=k=1KDCklog2DCkD表示样本的数量, C k {C_k}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值