gbdt原文_为何常规的gbdt和决策树不适用于高基数特征的场景

最新推荐文章于 2021-05-08 19:30:33 发布

东方远

最新推荐文章于 2021-05-08 19:30:33 发布

阅读量237

点赞数 1

文章标签： gbdt原文

本文链接：https://blog.csdn.net/weixin_33125137/article/details/112282019

版权

关于sklearn中的决策树是否应该用one-hot编码？www.zhihu.com

见最高赞的完美回答

1、第一点很直观，不多废话了

2、、在不加限制的情况下，tree会一直在高维的稀疏特征中生长，从而像左图这样一直分裂下去，当叶子节点的样本数量很小的时候，我们难以直接就根据叶子节点的输出来判定样本的类别或者是样本的回归标签值，举一个简单的例子，加入某个叶节点一共就5个样本，4个正样本，1个负样本，那么我们可以直接判定落在这个叶子节点上的样本是正样本的概率为0.8吗？答案是不能，统计值本身就是建立在大量样本的情况下才有效，少量样本的统计特征相对于全量数据的统计特征存在严重的偏差，在样本数量很小的情况下，概率值是没有意义的。