树模型 vs 线性模型: 对稀疏特征的敏感度

最新推荐文章于 2024-10-03 14:05:11 发布

Mr.Wiggles

最新推荐文章于 2024-10-03 14:05:11 发布

阅读量327

点赞数 5

文章标签：机器学习人工智能程序人生

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vihagle/article/details/138786470

版权

线性模型：

稀疏矩阵友好：线性模型如线性回归、逻辑回归等，能够很好地处理高维稀疏数据。这些模型通常采用梯度下降等优化算法进行参数估计，能够高效地处理特征中的大量零值，特别是在使用稀疏矩阵表示时，计算上可以忽略这些零值，从而减少计算资源的需求。
敏感性：尽管线性模型能处理稀疏数据，但它们对特征分布和极端值较为敏感。特别是当数据集中存在极端值或类别不平衡时，线性模型的性能可能会受到影响，因为模型倾向于拟合这些极端情况，导致偏差。

树模型（如决策树、随机森林、梯度提升树等）：

处理稀疏特征：树模型在分裂节点时，实际上是基于特征的一个阈值来划分数据，因此即使在高维稀疏空间中，只要非零特征能够提供足够的区分度，树模型依然可以构建有效的决策边界。这意味着，即使大部分特征为零，关键的非零特征仍会被有效利用。
对稀疏数据的鲁棒性：相较于线性模型，树模型对稀疏特征和噪声的容忍度更高。在构建树的过程中，通过不断分割来寻找最佳划分，能够在一定程度上自然地忽略不重要的稀疏特征，减少了噪声特征对模型的影响，同时这一点很重要，即one-hot特征处理时，会使得类别变量变成稀疏矩阵，降低了模型对该特征重要性的识别，所以在做特征工程的时候比较推荐对类别特征做label-encoder。
过拟合风险：但是，如果数据非常嘈杂或者特征之间高度相关，树模型（尤其是深度较大的模型，如GBM）可能会更容易过拟合，尤其是在特征选择不当或未进行适当剪枝的情况下。

综上所述，树模型在处理稀疏特征时通常展现出较好的鲁棒性和效率，因为它们能够自然地“绕过”不重要的稀疏特征并聚焦于有区分度的特征上。而线性模型虽然也能有效处理稀疏数据结构，但其对数据的分布和异常值更为敏感，可能需要额外的正则化或其他技术来应对这些问题。

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Mr.Wiggles CSDN认证博客专家 CSDN认证企业博客

码龄4年

87: 原创

3万+: 周排名

4万+: 总排名

7万+: 访问

: 等级

1008: 积分

3959: 粉丝

101: 获赞

40: 评论

332: 收藏

私信

关注

热门文章

分类专栏

最新评论

RS推荐系统-LSH最近邻查找+MiniHash
Q794469: 大佬牛批！通俗易懂！
工作繁忙 + 想法枯竭 = 许久未更
Mr.Wiggles: 如果样本不平衡，可以通过降/升采样的方法去缓解样本分布，但是得注意的是，一味的采样使得平衡并不是最终解决方法，采样后的分布还得参照自然分布。比如正样本只占到TTL的0.01%，我们通过采样使其占比变成3%即可，而不是强行变成正负样本五五开，因为采样后样本的分布不能脱离自然分布（比如买彩票的概率本身就极低）
训练集（离线）与测试集（上线）效果差距很大怎么办？
Mr.Wiggles: 我觉得分两点来看： 1.你可以对比做/不做smote，对比两个测试集的recall有没有uplift，如果有说明smote对模型的是有提升的 2.其次，smote影响recall可能只是个充分非必要条件，还得看你的数据质量高低，特征维度是否全面。这些也会影响模型的精度上限
训练集（离线）与测试集（上线）效果差距很大怎么办？
不暴饮暴食好难啊: 楼主，目前我也在做离职预测，用smote方法来平衡样本，在训练集和验证集表现挺好的，但是在测试集上的recal效果不好，这种情况怎么处理提高我的recall呢
工作繁忙 + 想法枯竭 = 许久未更
不暴饮暴食好难啊: 亲，想了解对于不平衡的数据集进行预测的问题，样本分类极度不均，可能一万个样本里只有几十个正样本

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Mr.Wiggles 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。