LR和GBDT高维稀疏特征

LR和GBDT高维稀疏特征

面试被问到GBDT是否适合处理高维稀疏特征,没有答上来,感觉自己对模型理解深度不够。
结论:LR适合处理高维稀疏特征,而GBDT不适合。
主要原因有:
1、高维特征会导致gbdt运行过于耗时
2、从高维稀疏特征中难以进行有效的特征空间划分,且对噪音会很敏感。

想想一个例子,有个年龄特征0~100,如果对这样特征进行one-hot编码后变为稀疏特征,第i维表示是否为i岁。

如果将这种特征直接输入gbdt然后输出是否是青年人。很显然gbdt将变成枚举各个年龄是否为青年人。这类特征是非常容易过拟合的,如果当训练样本中存在一些噪声样本如80岁的青年人,如果在80岁没有足够的样本,这个错误将被gbdt学到。而如果直接采用连续特征进行分类,gbdt会有更好的泛化性能。

3、高维稀疏特征大部分特征为0,假设训练集各个样本70%的特征为0,30%的特征非0。则某个维度特征在所有样本上也期望具有近似的取0的比例。当作分裂时,特征选择非常低效,特征只会在少部分特征取值非0的样本上得到有效信息。而稠密向量可以得到样本集的整体特征信息。

至于LR为什么在高维稀疏特征上表现较好。我的理解是:

1、LR的目标就是找到一个超平面对样本是的正负样本位于两侧,由于这个模型够简单,不会出现gbdt上过拟合的问题。

2、高维稀疏特征是不是可以理解为低维的稠密特征映射到了高维空间。这里联想到了SVM的核技巧,不也是为了将特征由低维空间映射到高维空间中实现特征的线性可分吗?在SVM中已经证实了其有效性。这里面应该存在某种规律,LR在高维空间比低维空间中具有更高的期望实现更好分类效果的。

GBDT可以理解为将空间划分为离散块,每块染上深度不同的颜色。

  • 7
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
GBDT回归中,数据特征选择是一个重要的步骤。特征选择的目的是从原始数据中选择出最具预测能力的特征,以提模型的性能和准确性。通常有两种常用的特征选择方法可以应用于GBDT回归。 第一种方法是基于树的特征选择。在GBDT回归中,每棵树的分割过程都是通过选择最佳的特征来进行的。这意味着,在训练过程中,GBDT回归模型会根据特征的重要性动态地调整树的结构。因此,通过观察每个特征GBDT回归模型中的重要性,我们可以获得特征的排序,并选择排名靠前的特征作为最终的特征子集。 第二种方法是基于特征的重要性度量。在GBDT回归中,每个特征都有一个重要性度量,用于衡量该特征在模型中的贡献程度。这些度量可以通过计算特征在每棵树中的分裂增益或特征在整个模型中的累积增益来得到。通过比较不同特征的重要性度量,我们可以选择具有较度量值的特征作为最终的特征子集。 总结起来,在GBDT回归中进行数据特征选择的方法包括基于树的特征选择和基于特征的重要性度量。这些方法都可以帮助我们选择具有预测能力的特征,并提模型的性能和准确性。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [初识GBDT回归流程](https://blog.csdn.net/qq_34525938/article/details/114503469)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [gbdt 回归 特征重要性 排序_GBDT算法原理及应用](https://blog.csdn.net/weixin_39778003/article/details/110276362)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值