GBDT+LR推荐算法

小美美大白蛋

已于 2024-07-16 17:21:01 修改

阅读量594

点赞数 15

分类专栏：推荐系统文章标签：推荐算法算法机器学习

于 2024-07-16 17:20:29 首次发布

本文链接：https://blog.csdn.net/weixin_41570231/article/details/140433870

版权

推荐系统专栏收录该内容

7 篇文章 1 订阅

订阅专栏

GBDT+LR（Gradient Boosting Decision Trees + Logistic Regression）是将梯度提升决策树（GBDT）和逻辑回归（LR）结合起来的一种集成学习方法。这种方法结合了GBDT的强大特征学习能力和LR的高效线性分类能力，通常在推荐系统、搜索排序和广告点击率预测等场景中表现优异。以下是GBDT+LR方法的详细介绍：

一、GBDT简介：

GBDT是一种集成学习方法，通过逐步训练多个决策树并结合它们的结果来提高预测性能。每个新树是在前面所有树的基础上，通过拟合其残差来减少误差。GBDT通常用于回归和分类任务，其特点包括：

高准确性：通过逐步拟合和减少误差，GBDT在许多任务中表现优越。
自动特征组合：GBDT能够自动发现并利用特征之间的交互关系。
抗噪性：对噪声数据具有一定的鲁棒性。

二、LR简介：

逻辑回归是一种广泛使用的线性分类模型，主要用于二分类任务。它通过学习输入特征与输出类别之间的线性关系，并利用sigmoid函数将线性组合映射到概率空间。LR的特点包括：

简单高效：计算效率高，模型易于训练和解释。
线性可分性：适用于线性可分的数据集。
概率输出：能够输出类别的概率，有利于进一步的决策。

三、GBDT+LR的结合：

GBDT+LR结合了两者的优势，通过以下步骤实现：

GBDT特征提取：首先，使用GBDT对原始特征进行训练，并生成新的特征表示。GBDT的叶子节点可以看作是新的特征，树的结构帮助自动组合和提取重要特征。
LR分类：然后，利用GBDT生成的特征训练逻辑回归模型。由于GBDT已经提取了有用的非线性特征，LR只需进行线性分类即可。

四、训练流程

1. 数据预处理

数据清洗：处理缺失值、异常值等。
特征工程：包括特征选择、特征变换和特征构建。
数据分割：将数据集分为训练集和测试集。

2. GBDT模型训练

模型训练：使用训练集训练GBDT模型。GBDT通过逐步构建多个决策树，每棵树都在前一棵树的基础上优化残差，从而提高预测性能。
特征提取：训练完成后，GBDT模型会为每个样本生成叶子节点索引，每棵树的叶子节点可以视为新的特征。

3. 提取GBDT叶子节点特征

叶子节点编码：对于每个样本，GBDT模型生成一个特征向量，这个向量的维度等于GBDT中树的数量，每个维度表示样本在对应树中的叶子节点索引。

4. LR模型训练

特征拼接：将原始特征与GBDT生成的叶子节点特征结合，形成新的特征向量。
模型训练：使用这些新的特征向量训练LR模型，充分利用GBDT生成的高阶特征进行分类任务。

5. 模型预测

GBDT预测：使用GBDT模型对新样本进行预测，生成叶子节点特征。
特征拼接：将新样本的原始特征与GBDT生成的叶子节点特征结合。
LR预测：使用训练好的LR模型进行最终预测。

6. 模型评估

性能评估：使用测试集评估模型的性能，常用的评估指标包括准确率、AUC、F1-score等。
模型优化：根据评估结果调整模型参数，进行模型优化。

这样，GBDT+LR结合模型充分利用了GBDT的特征提取能力和LR的线性分类能力，实现了高效的分类预测。

五、优点：

特征提取能力强：GBDT能有效提取和组合特征，使得LR能利用更丰富的特征进行分类。
计算效率高：GBDT+LR方法计算效率高，尤其适合大规模数据集。
鲁棒性好：对噪声数据和缺失数据具有较好的鲁棒性。

六、代码示例：

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 生成模拟数据
X, y = make_classification(n_samples=10000, n_features=20, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练GBDT模型
gbdt = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)
gbdt.fit(X_train, y_train)

# 使用GBDT生成新特征
X_train_gbdt = gbdt.apply(X_train)[:, :, 0]
X_test_gbdt = gbdt.apply(X_test)[:, :, 0]

# 训练LR模型
lr = LogisticRegression()
lr.fit(X_train_gbdt, y_train)

# 预测并评估
y_pred = lr.predict(X_test_gbdt)
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.4f}')

小美美大白蛋

关注

15
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
GBDT+LR推荐算法

GBDT是一种集成学习方法，通过逐步训练多个决策树并结合它们的结果来提高预测性能。每个新树是在前面所有树的基础上，通过拟合其残差来减少误差。高准确性：通过逐步拟合和减少误差，GBDT在许多任务中表现优越。自动特征组合：GBDT能够自动发现并利用特征之间的交互关系。抗噪性：对噪声数据具有一定的鲁棒性。逻辑回归是一种广泛使用的线性分类模型，主要用于二分类任务。它通过学习输入特征与输出类别之间的线性关系，并利用sigmoid函数将线性组合映射到概率空间。简单高效：计算效率高，模型易于训练和解释。
复制链接

扫一扫

专栏目录