决策树

本文详细介绍了决策树算法,包括信息熵、信息增益、信息增益率、基尼值和基尼指数等划分依据。探讨了ID3、C4.5和CART算法的区别,如C4.5采用信息增益率避免过拟合,CART使用基尼指数。此外,还讨论了决策树剪枝的原因和重要性,以防止过拟合。最后提到了特征工程和决策树在文本特征提取中的应用。
摘要由CSDN通过智能技术生成

决策树算法:

分类算法:
​ 目标值
​ 离散型

特征值:
离散型[如这里的字符串类型的特征值] 将特征值为离散型的数值转化为数值型
‘1st’
‘2nd’
‘3rd’
在pandas里面数据离散化采用:
one-hot编码

####决策树算法去关心的两个问题:
1 结果(目标值)纯度问题
2 如何选择最优划分指标 --> 让我们结果尽可能的简单纯粹

纯度 :
{1,1,1,1,1,1,1}
{0,0,0,0,0,0,0,0,0}
不纯的情况:
{0,1,0,1,0,1,0,1,0,1}
{1,1,1,0,0,0,1,1,1,0}

####决策树分类原理

信息熵:
n pi = 1/n
当信息熵最不纯的时候,每种发生的概率值是相等的
-sum[pi*log(pi)]

  • sum pi * log(pi)
    最不纯的情况:
    log(n)

最纯的情况:
p1 = 1 p2, p3, pn = 0

  • 1 * log(1) = 0

信息熵的单位是 bit
log(32) = 5 bit
所以对咱们的32支球队的获胜的预测概率求解,假设如果是等概率的情况,那么需要使用5位可以预测最后的获胜球队
11111 bit

决策树的划分依据一----信息增益
H(D)
咱们的信息熵的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值