离散特征处理方法

显式特征组合

常用方法:对特征进行离散化然后进行叉乘,采用笛卡儿积、内积等方式

针对不同特征类型,有不同的处理方式

  • 数值特征

    无监督离散化:根据简单统计量进行等频、等宽、分位点等划分区间

    有监督离散化:IR方法、Entropy-basedDiscretization

  • 有序特征(ordinal feature) CCF画像比赛有位同学采用二值化

    编码表示值之间的顺序关系,比如卫生条件这一特征,分别有差、中、好三档,那么可以分为编码为(1,0,0),(1,1,0),(1,1,1)

  • 无序特征(categorical feature)

    one hot

    离散特征经过One后,每个分类型变量的各个值在模型中都可以看作独立变量,增强拟合能力。一般的,当模型加正则化的情况下约束模型自由度,我们认为One更好

    dummy encoding

    离散化为哑变量,这一维信息嵌入模型Bias起到简化逻辑回归作用,降低模型过拟合风险

    hash trick(转化为固定长度的hash variable) --比赛群有人提出了

    利用feature hash技术将高维稀疏特征映射到固定维度空间

半显示特征组合

区别于显式特征组合具有明确的组合解释信息,半显式特征组合通常的做法是基于树方法形成特征划分并给出相应组合路径。

作用将样本的连续值输入ensemble tree,分别在每棵决策树沿着特定分支路径最终落入某个叶子节点得到其编号,本质上是这些特征在特定取值区间内的组合。采用GDBT或者RF实现,每一轮迭代产生一颗新树,最终通过One-hot encoding转换为binary vector 。GBDT + LR/FM

实验发现:单纯采用xgboost自动学到的高阶组合特征输入LR模型并不能完全替代人工特征工程作用,可以将原始特征以及一些人工的高阶特征的交叉特征同xgboost学习到特征组合一起放入后续模型,获得更好的效果。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值