(机器学习)决策树及其sklearn应用

本文探讨了决策树在回归和分类问题中的应用,如房价预测、贷款风险评估、邮件分类等。强调了决策树计算复杂度低、结果易理解以及对缺失值的不敏感性。同时,介绍了熵和基尼指数作为信息不确定性的度量,并讨论了信息增益作为选择特征的依据。针对过拟合问题,提出了剪枝策略。文章通过多个Python示例,包括香农熵和基尼系数计算、自定义决策树以及使用sklearn实现分类和回归任务。
摘要由CSDN通过智能技术生成

用途:

  • 回归:房价预测、贷款风险评估
  • 分类:邮件分类、保险行业的险种推广预测、医疗的辅助诊断

优点:

  • 计算复杂度不高
  • 输出结果容易理解
  • 对中间值的缺失不敏感
  • 可以处理不相关特征

缺点:

  • 容易过拟合

使用数据类型:

  • 数值型
  • 标称型

算法原理:
决策树的原理就是通过 if-then 的过程将原本杂乱不确定的信息变成一个确定、有序的信息。
在这里插入图片描述
信息不确定的度量:

  • 熵:香农熵
    H ( D ) = − ∑ i k p i ∗ l o g ( p i ) H (D)= - \sum^k_i p_i * log(p_i) H(D)=ikpilog(pi)
    D D D:是一个数据集,有 k k k个类别
    p i p_i pi:表示第 i i i个类别在 H H H中的概率
  • GINI系数
    G = 1 − ∑ i k p i 2 G = 1 - \sum^k_i p_i ^2 G=1ikpi2

*熵的计算要比GINI系数的计算稍慢,Sklearn中默认GINI系数,从效果上来讲并无明显差别。

决策前后,信息不确定性变化的度量:

  • 信息增益: g ( D ∣ A ) = H ( D ) − H ( D ∣ A ) g(D|A) = H(D)-H(D|A) g(DA)=H(D)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值