买房什么时候才是最划算的？Python来实现房价预测。

2401_83817392

于 2024-04-22 09:58:23 发布

阅读量321

点赞数 3

分类专栏：程序员文章标签： python 人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_83817392/article/details/138063251

版权

本文介绍了如何使用Python进行房价预测，包括数据预处理、特征工程和模型训练。通过处理缺失值、转换特征、校正偏度以及创建新特征，如融合面积信息，使用了岭回归、Lasso、ElasticNet等多个模型，并采用Kaggle评分进行模型评估。最终讨论了模型融合，如stacking和线性融合，以提高预测准确性。

摘要由CSDN通过智能技术生成

detect_outliers()是自定义函数，用sklearn库的LocalOutlierFactor算法计算离群点。

到这里， EDA 就完成了。最后，将训练集和测试集合并，进行下面的特征工程。

y = train.SalePrice.reset_index(drop=True)

train_features = train.drop([‘SalePrice’], axis=1)

test_features = test

features = pd.concat([train_features, test_features]).reset_index(drop=True)

features合并了训练集和测试集的特征，是我们下面要处理的数据。

二. 特征工程

特征工程

2.1 校正特征类型

MSSubClass（房屋类型）、YrSold（销售年份）和MoSold（销售月份）是类别型特征，只不过用数字来表示，需要将它们转成文本特征。

features[‘MSSubClass’] = features[‘MSSubClass’].apply(str)

features[‘YrSold’] = features[‘YrSold’].astype(str)

features[‘MoSold’] = features[‘MoSold’].astype(str)

2.2 填充特征缺失值

填充缺失值没有统一的标准，需要根据不同的特征来决定按照什么样的方式来填充。

# Functional：文档提供了典型值 Typ

features[‘Functional’] = features[‘Functional’].fillna(‘Typ’) #Typ 是典型值

分组填充需要按照相似的特征分组，取众数或中位数

MSZoning（房屋区域）按照 MSSubClass（房屋）类型分组填充众数

features[‘MSZoning’] = features.groupby(‘MSSubClass’)[‘MSZoning’].transform(lambda x: x.fillna(x.mode()[0]))

#LotFrontage（到接到举例）按Neighborhood分组填充中位数

features[‘LotFrontage’] = features.groupby(‘Neighborhood’)[‘LotFrontage’].transform(lambda x: x.fillna(x.median()))

车库相关的数值型特征，空代表无，使用0填充空值。

for col in (‘GarageYrBlt’, ‘GarageArea’, ‘GarageCars’):

features[col] = features[col].fillna(0)

最低0.47元/天解锁文章

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。