机器学习-使用gbdt生成高维特征

最新推荐文章于 2023-03-08 15:27:24 发布

感性企鹅

最新推荐文章于 2023-03-08 15:27:24 发布

阅读量536

点赞数

分类专栏：机器学习 python 文章标签：机器学习 python

本文链接：https://blog.csdn.net/wangjie5540/article/details/103905519

版权

机器学习同时被 2 个专栏收录

36 篇文章 1 订阅

订阅专栏

python

12 篇文章 0 订阅

订阅专栏

背景

现在比较流行的ctr预估是gbdt+lr的方法：

gbdt进行连续特征的离散化，省去了人为分桶的过程，既提高了效率，又提高了准确率
lr，进行最终的特征训练，进行ctr预估

本文将阐述如何使用python的sklearn提取高维特征

实战

import numpy as np
from sklearn.preprocessing import OneHotEncoder
from sklearn.ensemble import GradientBoostingRegressor

x = np.array(
    [[0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.3333333333333333, 1.0], [0.3333333333333333, 0.0],
     [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.3333333333333333, 0.0],
     [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.6666666666666666, 0.0], [0.0, 0.0],
     [0.3333333333333333, 0.0], [0.6666666666666666, 0.0], [0.0, 0.0], [0.3333333333333333, 0.0], [0.0, 1.0],
     [0.0, 0.0], [0.3333333333333333, 0.0], [0.6666666666666666, 0.0], [0.0, 0.6666666666666666], [0.0, 0.0],
     [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.3333333333333333, 0.0],
     [0.3333333333333333, 0.0], [0.0, 0.0], [0.0, 0.0], [0.6666666666666666, 0.0], [0.6666666666666666, 0.0],
     [0.3333333333333333, 0.3333333333333333], [0.0, 0.0], [0.0, 0.0], [0.3333333333333333, 0.0],
     [0.3333333333333333, 0.0], [1.0, 0.0], [0.3333333333333333, 0.0], [0.3333333333333333, 0.3333333333333333],
     [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.0, 0.3333333333333333], [0.0, 0.0],
     [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.3333333333333333, 0.0],
     [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.0, 0.0], [0.6666666666666666, 0.0],
     [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [1.0, 0.0], [1.0, 0.0], [1.0, 0.0], [0.0, 0.0],
     [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [1.0, 0.0], [0.0, 1.0], [0.3333333333333333, 0.0],
     [0.0, 0.0], [0.6666666666666666, 0.0], [0.3333333333333333, 0.0], [0.3333333333333333, 0.0],
     [0.3333333333333333, 0.6666666666666666], [0.3333333333333333, 0.0], [0.6666666666666666, 0.0],
     [0.3333333333333333, 0.3333333333333333], [0.3333333333333333, 0.0], [0.0, 0.0], [0.3333333333333333, 0.0],
     [0.3333333333333333, 0.0], [1.0, 0.0], [0.0, 0.0], [0.3333333333333333, 0.0], [0.0, 0.0],
     [0.6666666666666666, 0.0], [0.0, 0.0], [0.6666666666666666, 0.0], [0.3333333333333333, 0.0], [1.0, 0.0],
     [0.0, 0.0], [0.6666666666666666, 0.3333333333333333], [0.3333333333333333, 0.3333333333333333],
     [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.3333333333333333, 0.0], [0.0, 0.0],
     [0.3333333333333333, 0.3333333333333333], [0.3333333333333333, 0.0], [1.0, 0.0], [0.3333333333333333, 0.0],
     [0.0, 0.0], [0.0, 0.0], [0.0, 0.6666666666666666], [0.0, 0.0], [0.0, 0.0], [0.6666666666666666, 0.0]])
y = np.array(
    [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1,
     1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0,
     1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1])

gbr = GradientBoostingRegressor()
gbr.fit(x, y)
enc = OneHotEncoder()
# 输出每一棵树的结果
print(gbr.apply(x))
enc.fit(gbr.apply(x))
new_feature_train = enc.transform(gbr.apply(x))
# 将转化后的新特征转化为np数组形式
new_feature_train = new_feature_train.toarray()
print(new_feature_train)

在这里插入图片描述

最后得到了对于逻辑回归友好的0 1特征。

评价

python的sklearn能实现你的特征编码，但是在上亿数据面前，使用python库的效率较低，而且内存问题难以解决，所以需要考虑使用其他的方式方法进行训练，比如xgboost、spark等

感性企鹅

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习-使用gbdt生成高维特征

背景现在比较流行的ctr预估是gbdt+lr的方法：gbdt进行连续特征的离散化，省去了人为分桶的过程，既提高了效率，又提高了准确率lr，进行最终的特征训练，进行ctr预估本文将阐述如何使用python的sklearn提取高维特征实战import numpy as npfrom sklearn.preprocessing import OneHotEncoderfrom skl...
复制链接

扫一扫

专栏目录