构建房地产预测模型的数据准备与评估

Pella732

于 2025-04-11 09:21:59 发布

阅读量333

点赞数 3

文章标签：数据清洗特征选择模型评估梯度提升 Pandas

本文链接：https://blog.csdn.net/weixin_42596246/article/details/147169625

版权

背景简介

在处理任何机器学习项目时，数据准备是至关重要的一步。良好的数据准备可以大大提高模型的预测性能。本篇博客将基于书籍中的章节内容，探讨如何有效地准备数据集，并构建一个房地产价格预测模型。

数据预处理

首先，作者通过删除与物业位置相关的列（如地址和邮政编码）和一些非数值信息的列（如区域名称和物业数量）来简化数据集。这一过程是基于假设这些信息对模型的影响较小，并且可以通过其他列来间接反映。例如，物业所在的Suburb和CouncilArea往往比具体的邮政编码更具有影响力。此外，一些变量如Method和SellerG被认为是次要的，因此也被移除。

数据集中剩余的变量，如房间数、物业类型和距离等，构成了模型的独立变量。这一阶段的数据预处理还包括处理缺失值，书中建议采用删除包含缺失值的行的方法。虽然这种方法会导致数据量减少，但它为初学者提供了一个简洁的处理方式。在移除相关列和处理缺失值之后，数据集被转换为适合机器学习模型输入的数值形式，包括使用独热编码来处理分类特征。

模型选择与超参数配置

在选择适当的机器学习算法时，作者选择了梯度提升回归器，这是一种强大的算法，擅长处理具有大量变量的高维数据集。作者详细解释了梯度提升回归器的多个超参数，并给出了每个参数的作用和选取的依据。例如， n_estimators 决定了模型中决策树的数量， learning_rate 控制了模型学习速度和过拟合风险，而 max_depth 则定义了每棵树的最大深度。

在配置好模型的超参数后，作者使用了Scikit-learn库中的fit函数来训练模型，并通过joblib模块将训练好的模型保存下来，以便未来使用。这一阶段确保了模型的可复用性。

模型评估

最后，作者对模型的性能进行了评估。使用平均绝对误差（Mean Absolute Error, MAE）作为评估指标，计算了模型在训练集和测试集上的预测误差。训练集的MAE远低于测试集的MAE，这表明模型在训练数据上表现良好，但对测试数据的泛化能力不足。分析认为，过高的模型复杂度（如 max_depth=30 ）可能是导致过拟合的一个原因。