LR什么时候要进行特征选择,什么时候不用特征选择?

LR使用gbdt的衍生特征效果如何?什么时候使用组合特征?

1、LR算法对高维稀疏矩阵具有鲁棒性,因此LR的正则化参数,会将区分度较弱的特征赋一个较小的权重,另外,当特征维度较高时,大量维度特征的权重也较小,使得最终得到的模型具有较强的鲁棒性。

2、但是当样本量较小,尤其是特征的维度大于样本时,LR算法会受到无关特征的干扰,使得模型过拟合。因此,当样本量较少时,需要进行特征选择

因此,是否要进行特征选择可以根据样本和特征维度的多少来决定。当样本量较大时,可以尝试用gbdt批量衍生组合特征,最好对组合特征进行选择,以免造成过拟合。当样本量较小时,慎重加入大量的组合特征,以免模型过拟合。

另外,实际上,LR+gbdt的衍生特征 的效果跟单纯使用GBDT模型的效果差不多,选择模型时可以对比LR、LR+gbdt衍生特征、xgboost三个模型的效果,取最优的模型。

另外,计算gbdt组合特征时要限制叶子节点的规模和树的深度,以保证鲁棒性

max_depth:深度要小,2或3

gamma: 继续分支的最小的损失减小度,要大一点

min_child_weight:继续分支的最小节点权重,要大一点(可以理解为叶子节点的最小样本数)

LR 原始特征202维 树特征155维 原始特征+树特征
训练集(20万)AUC 0.698 0.719 0.724
测试集(4.6万)AUC 0.673 0.699 0.703

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值