机器学习-使用gbdt生成高维特征

背景

现在比较流行的ctr预估是gbdt+lr的方法:

  • gbdt进行连续特征的离散化,省去了人为分桶的过程,既提高了效率,又提高了准确率
  • lr,进行最终的特征训练,进行ctr预估

本文将阐述如何使用python的sklearn提取高维特征

实战

import numpy as np
from sklearn.preprocessing import OneHotEncoder
from sklearn.ensemble import GradientBoostingRegressor

x = np.array(
    [[0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.3333333333333333, 1.0], [0.3333333333333333, 0.0],
     [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.3333333333333333, 0.0],
     [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.6666666666666666, 0.0], [0.0, 0.0],
     [0.3333333333333333, 0.0], [0.6666666666666666, 0.0], [0.0, 0.0], [0.3333333333333333, 0.0], [0.0, 1.0],
     [0.0, 0.0], [0.3333333333333333, 0.0], [0.6666666666666666, 0.0], [0.0, 0.6666666666666666], [0.0, 0.0],
     [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.3333333333333333, 0.0],
     [0.3333333333333333, 0.0], [0.0, 0.0], [0.0, 0.0], [0.6666666666666666, 0.0], [0.6666666666666666, 0.0],
     [0.3333333333333333, 0.3333333333333333], [0.0, 0.0], [0.0, 0.0], [0.3333333333333333, 0.0],
     [0.3333333333333333, 0.0], [1.0, 0.0], [0.3333333333333333, 0.0], [0.3333333333333333, 0.3333333333333333],
     [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.0, 0.3333333333333333], [0.0, 0.0],
     [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.3333333333333333, 0.0],
     [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.0, 0.0], [0.6666666666666666, 0.0],
     [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [1.0, 0.0], [1.0, 0.0], [1.0, 0.0], [0.0, 0.0],
     [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [1.0, 0.0], [0.0, 1.0], [0.3333333333333333, 0.0],
     [0.0, 0.0], [0.6666666666666666, 0.0], [0.3333333333333333, 0.0], [0.3333333333333333, 0.0],
     [0.3333333333333333, 0.6666666666666666], [0.3333333333333333, 0.0], [0.6666666666666666, 0.0],
     [0.3333333333333333, 0.3333333333333333], [0.3333333333333333, 0.0], [0.0, 0.0], [0.3333333333333333, 0.0],
     [0.3333333333333333, 0.0], [1.0, 0.0], [0.0, 0.0], [0.3333333333333333, 0.0], [0.0, 0.0],
     [0.6666666666666666, 0.0], [0.0, 0.0], [0.6666666666666666, 0.0], [0.3333333333333333, 0.0], [1.0, 0.0],
     [0.0, 0.0], [0.6666666666666666, 0.3333333333333333], [0.3333333333333333, 0.3333333333333333],
     [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.0, 0.0],
     [0.3333333333333333, 0.3333333333333333], [0.3333333333333333, 0.0], [1.0, 0.0], [0.3333333333333333, 0.0],
     [0.0, 0.0], [0.0, 0.0], [0.0, 0.6666666666666666], [0.0, 0.0], [0.0, 0.0], [0.6666666666666666, 0.0]])
y = np.array(
    [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1,
     1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0,
     1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1])

gbr = GradientBoostingRegressor()
gbr.fit(x, y)
enc = OneHotEncoder()
# 输出每一棵树的结果
print(gbr.apply(x))
enc.fit(gbr.apply(x))
new_feature_train = enc.transform(gbr.apply(x))
# 将转化后的新特征转化为np数组形式
new_feature_train = new_feature_train.toarray()
print(new_feature_train)

在这里插入图片描述

最后得到了对于逻辑回归友好的0 1特征。

评价

python的sklearn能实现你的特征编码,但是在上亿数据面前,使用python库的效率较低,而且内存问题难以解决,所以需要考虑使用其他的方式方法进行训练,比如xgboost、spark等

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值