LR和GBDT高维稀疏特征

最新推荐文章于 2022-08-17 19:45:13 发布

bit_max

最新推荐文章于 2022-08-17 19:45:13 发布

阅读量6.3k

点赞数 8

文章标签： gbdt lr

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bit_max/article/details/101230299

版权

LR和GBDT高维稀疏特征

面试被问到GBDT是否适合处理高维稀疏特征，没有答上来，感觉自己对模型理解深度不够。
结论：LR适合处理高维稀疏特征，而GBDT不适合。
主要原因有：
1、高维特征会导致gbdt运行过于耗时
2、从高维稀疏特征中难以进行有效的特征空间划分，且对噪音会很敏感。

想想一个例子，有个年龄特征0~100，如果对这样特征进行one-hot编码后变为稀疏特征，第i维表示是否为i岁。

如果将这种特征直接输入gbdt然后输出是否是青年人。很显然gbdt将变成枚举各个年龄是否为青年人。这类特征是非常容易过拟合的，如果当训练样本中存在一些噪声样本如80岁的青年人，如果在80岁没有足够的样本，这个错误将被gbdt学到。而如果直接采用连续特征进行分类，gbdt会有更好的泛化性能。

3、高维稀疏特征大部分特征为0，假设训练集各个样本70%的特征为0，30%的特征非0。则某个维度特征在所有样本上也期望具有近似的取0的比例。当作分裂时，特征选择非常低效，特征只会在少部分特征取值非0的样本上得到有效信息。而稠密向量可以得到样本集的整体特征信息。

至于LR为什么在高维稀疏特征上表现较好。我的理解是：

1、LR的目标就是找到一个超平面对样本是的正负样本位于两侧，由于这个模型够简单，不会出现gbdt上过拟合的问题。

2、高维稀疏特征是不是可以理解为低维的稠密特征映射到了高维空间。这里联想到了SVM的核技巧，不也是为了将特征由低维空间映射到高维空间中实现特征的线性可分吗？在SVM中已经证实了其有效性。这里面应该存在某种规律，LR在高维空间比低维空间中具有更高的期望实现更好分类效果的。

GBDT可以理解为将空间划分为离散块，每块染上深度不同的颜色。

关注

8
点赞
踩
34

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

bit_max CSDN认证博客专家 CSDN认证企业博客

码龄7年

2: 原创

83万+: 周排名

158万+: 总排名

6603: 访问

: 等级

97: 积分

1: 粉丝

8: 获赞

0: 评论

37: 收藏

私信

关注

热门文章

最新文章

DeepFM

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。