Python实现AdaBoost回归模型(AdaBoostRegressor算法)并应用网格搜索算法调优项目实战

339 篇文章 233 订阅

说明:这是一个机器学习实战项目(附带数据+代码+文档+代码讲解),如需数据+代码+文档+代码讲解可以直接到文章最后获取。




1.项目背景

AdaBoost算法(Adaptive Boosting)是一种有效而实用的Boosting算法,它以一种高度自适应的方式按顺序训练弱学习器。针对分类问题,AdaBoost算法根据前一次的分类效果调整数据的权重,在上一个弱学习器中分类错误的样本的权重会在下一个弱学习器中增加,分类正确的样本的权重则相应减少,并且在每一轮迭代时会向模型加入一个新的弱学习器。不断重复调整权重和训练弱学习器,直到误分类数低于预设值或迭代次数达到指定最大值,最终得到一个强学习器。简单来说,AdaBoost算法的核心思想就是调整错误样本的权重,进而迭代升级。

本项目通过Adaboost回归算法来构建模型,并通过网格搜索算法寻找最优的参数值。

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下:

数据详情如下(部分展示):

3.数据预处理

3.1 用Pandas工具查看数据

使用Pandas工具的head()方法查看前五行数据:

关键代码:

3.2 数据缺失查看

使用Pandas工具的info()方法查看数据信息:

从上图可以看到,总共有9个变量,数据中无缺失值,共1000条数据。

关键代码:

3.3 数据描述性统计

通过Pandas工具的describe()方法来查看数据的平均值、标准差、最小值、分位数、最大值。

关键代码如下:

4.探索性数据分析

4.1 y变量直方图

用Matplotlib工具的hist()方法绘制直方图:

从上图可以看到,y变量主要集中在-300~300之间。

4.2 相关性分析

从上图中可以看到,数值越大相关性越强,正值是正相关、负值是负相关。

5.特征工程

5.1 建立特征数据和标签数据

关键代码如下:

5.2 数据集拆分

通过train_test_split()方法按照80%训练集、20%测试集进行划分,关键代码如下:

6.构建AdaBoost回归模型

主要使用AdaBoost回归算法和网格搜索算法,用于目标回归。

6.1 默认参数构建模型

6.2 网格搜索寻找最优的参数值

6.3 最优参数值构建模型

7.模型评估

7.1 评估指标及结果

评估指标主要包括可解释方差值、平均绝对误差、均方误差、R方值等等。

从上表可以看出,R方为0.889;默认参数的R放为0.8552,经过网格搜索优化后模型效果有一定的提升。

关键代码如下:

7.2 真实值与预测值对比图

从上图可以看出真实值和预测值波动基本一致。

7.3 模型特征重要性展示

通过上图可以看到,每个特征的重要性。

8.结论与展望

综上所述,本文采用了AdaBoost算法来构建回归模型,并通过网格搜索算法寻找最优的参数值,最终证明了我们提出的模型效果良好。此模型可用于日常产品的预测。

# 本次机器学习项目实战所需的资料,项目资源如下:
 
# 项目说明:

# 链接:https://pan.baidu.com/s/1Osq_kdxdK0nL7LHdFFVznA 
# 提取码:sp76

  更多项目实战,详见机器学习项目实战合集列表:

机器学习项目实战合集列表_机器学习实战项目_胖哥真不错的博客-CSDN博客


  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Adaboost算法是一种集成学习算法,它能够将多个弱分类器组合成一个强分类器。其中,每个弱分类器的训练都是基于一个加权的数据集进行的。在每次迭代中,Adaboost算法会根据前一次的分类结果来调整每个样本的权重,以使得分类错误的样本受到更多的关注。这样,新的弱分类器就能够更加关注分类错误的样本,从而提高整体的分类性能。 逻辑斯蒂回归是一种二分类模型,它基于逻辑斯蒂函数来对样本进行分类。在训练过程中,我们需要最大化对数似然函数,从而求得模型的参数。对于每个样本,我们需要计算其梯度,然后根据梯度来更新模型的参数。 现在,我们可以将Adaboost算法中的权重更新方法应用到逻辑斯蒂回归中。具体来说,我们可以将每个样本的权重视为Adaboost算法中的样本权重,然后使用梯度下降来更新模型参数。具体的实现如下: ```python import numpy as np class AdaboostLR: def __init__(self, n_estimators=50, learning_rate=1.0): self.n_estimators = n_estimators self.learning_rate = learning_rate self.estimators = [] def fit(self, X, y): # 初始化样本权重 w = np.ones(X.shape[0]) / X.shape[0] for i in range(self.n_estimators): # 训练一个逻辑斯蒂回归模型 estimator = LogisticRegression() estimator.fit(X, y, sample_weight=w) # 计算分类错误率 y_pred = estimator.predict(X) error_rate = np.sum(w * (y_pred != y)) / np.sum(w) # 计算模型权重 alpha = self.learning_rate * np.log((1 - error_rate) / error_rate) # 更新样本权重 w *= np.exp(alpha * (y_pred != y)) w /= np.sum(w) # 保存模型和权重 self.estimators.append((estimator, alpha)) def predict(self, X): # 预测结果为加权的所有弱分类器的预测结果之和 y_pred = np.zeros(X.shape[0]) for estimator, alpha in self.estimators: y_pred += alpha * estimator.predict(X) return np.sign(y_pred) ``` 在这个实现中,我们首先使用np.ones()函数初始化样本权重。然后,我们在每个迭代中训练一个逻辑斯蒂回归模型,并根据其预测结果来计算分类错误率。接下来,我们使用错误率计算模型权重,并使用权重更新样本权重。最后,我们保存模型和权重,并在预测时使用它们来计算加权的预测结果。 注意,这个实现中我们并没有使用sklearn中的AdaBoostClassifier类,而是手动实现Adaboost算法。这样做的好处是可以更好地理解Adaboost算法的原理。但是,使用sklearn中的AdaBoostClassifier类可以更方便地调整参数和处理数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

胖哥真不错

您的鼓励,将是我最大的坚持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值