lightgbm处理类别特征

Lightgbm可以直接支持category特征的处理,在用pandas结构使用LGB时可以指定哪一列是类别型数据,省去one-hot的步骤。如果类别过多,如商品ID,在one-hot处理后数据会变得过于稀疏,大大增加了训练集的大小,浪费计算资源。

而LGB则会采用一种直方图式的方法去处理,max bin的默认值是256,对于category类型的feature,则是每一种取值放入一个bin,且当取值的个数大于max bin数时,会忽略那些很少出现的category值。在求split时,对于category类型的feature,算的是按是否属于某个category值划分的gain,它的实际效果就是类似one-hot的编码方法。

参考:https://www.jianshu.com/p/d07f0b0726da

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
LightGBM(轻量级梯度提升机)是一个高效的梯度提升决策树算法,特征工程在LightGBM中起到了至关重要的作用。 特征工程是指对原始数据进行处理和转换,以便更好地适应机器学习算法的需求。在LightGBM中,特征工程可以通过以下几个方面来提升模型的性能: 1. 缺失值处理LightGBM对缺失值的处理非常友好,不需要对缺失值进行特殊处理,可以直接将缺失值作为一个独立的特征进行建模。但是我们仍然可以根据具体情况对缺失值进行处理,以提高模型的性能。 2. 类别特征处理LightGBM类别特征处理也非常方便。可以通过将类别特征进行编码转换为数值特征,或者使用独热编码等方法将类别特征转换为二进制特征。 3. 特征选择:可以使用LightGBM内置的特征重要性评估方法,通过训练模型后获取每个特征的重要性得分,再根据得分选择最重要的特征。这样可以去除无关特征和降低模型的复杂度,提高训练和预测的速度。 4. 特征交叉:可以通过将两个或多个特征进行组合,构造出新的交叉特征。这样可以提取出更高阶的特征信息,增强模型的非线性拟合能力。 5. 特征缩放:可以对特征进行缩放,使得各个特征具有相同的尺度。常用的缩放方法包括标准化和归一化,可以提高模型的稳定性和收敛速度。 总之,LightGBM特征工程方面具有很大的灵活性和便捷性,可以根据实际情况进行特征处理、选择和转换,以提高模型的性能和预测效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值