决策树信息熵和信息增益的概念

1 信息熵:度量样本集合纯度的。

计算方法: 

p(k):每一种情况发生的的概率,变量的不确定性越大,其信息熵越大。

2.信息增益:用来进行决策树的划分属性选择。




著名的ID3决策树算法和C4.5算法最根本的不同就是:属性选择的度量方式不同,ID3:依据信息增益。C4.5根据增益率来进行选择划分的属性。

3.决策树容易出现overfitting的情况,主要通过剪枝操作来避免。

先剪枝:树的深度达到一定程度之后,类别的纯度也达到一定程度之后就不在继续往下进行分枝创建树的操作了。

后剪枝:完完全全的先把树创建出来,然后自底向上对飞叶节点进行考察,若将该节点替换成叶子节点能够提升决策树的泛化能力,则将该子树替换为叶节点。

4.决策树的优点:直观,小规模的数据集有效。

缺点:处理连续变量不好。类别较多的时候错误率也会快速上升。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值