gbdt原文_为何常规的gbdt和决策树不适用于高基数特征的场景

关于sklearn中的决策树是否应该用one-hot编码?​www.zhihu.com

见最高赞的完美回答

053080383c79932bc2c09434ec159135.png

1、第一点很直观,不多废话了

2、、在不加限制的情况下,tree会一直在高维的稀疏特征中生长,从而像左图这样一直分裂下去,当叶子节点的样本数量很小的时候,我们难以直接就根据叶子节点的输出来判定样本的类别或者是样本的回归标签值,举一个简单的例子,加入某个叶节点一共就5个样本,4个正样本,1个负样本,那么我们可以直接判定落在这个叶子节点上的样本是正样本的概率为0.8吗?答案是不能,统计值本身就是建立在大量样本的情况下才有效,少量样本的统计特征相对于全量数据的统计特征存在严重的偏差,在样本数量很小的情况下,概率值是没有意义的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值