数据挖掘之房价预测任务

最新推荐文章于 2023-12-05 16:37:40 发布

弎见

最新推荐文章于 2023-12-05 16:37:40 发布

阅读量2.4k

点赞数 3

分类专栏：数据挖掘文章标签：数据挖掘 python 机器学习集成算法正态分布

本文链接：https://blog.csdn.net/sanjianjixiang/article/details/107116858

版权

该博客主要探讨了房价预测的数据挖掘任务，包括查看数据的详细步骤，如特征与标签分析、数据清洗（处理离群点、正态分布变换）以及使用多种集成算法（如Lasso、ElasticNet、Gradient Boosting、Xgboost、平均模型和堆叠模型）进行建模，以提高预测准确性。

摘要由CSDN通过智能技术生成

一. 查看数据

1.1 查看标签

import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

df_train = pd.read_csv(r'data\train.csv')
print(df_train.shape)
df_train['SalePrice'].describe()

(1460, 81)
在这里插入图片描述
观察一下它的偏度值

print('Skewness: %f' % df_train['SalePrice'].skew())
print('Kurtosis: %f' % df_train['SalePrice'].kurt())

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

sns.distplot(df_train['SalePrice'])

Skewness: 1.882876
Kurtosis: 6.536282
在这里插入图片描述

1.2 特征与标签

# 居住面积平方英尺
data = pd.concat([df_train['SalePrice'], df_train['GrLivArea']], axis = 1)
data.plot.scatter(x = 'GrLivArea', y = 'SalePrice')

在这里插入图片描述

# 地下室面积平方英尺
data = pd.concat([df_train['SalePrice'], df_train['TotalBsmtSF']], axis = 1)
data.plot.scatter(x = 'TotalBsmtSF', y = 'SalePrice')

在这里插入图片描述

# 整体材料和饰面质量
data = df_train[['SalePrice', 'OverallQual']]
plt.subplots(figsize = (8, 6))
sns.boxplot(x = 'OverallQual', y = 'SalePrice', data = data)

在这里插入图片描述

data = df_train[['Neighborhood', 'SalePrice']]
plt.subplots(figsize = (10, 6))
sns.boxplot(x = 'Neighborhood', y = 'SalePrice', data = data)
plt.xticks(rotation = 60);

在这里插入图片描述

1.3 相关性

corrmat = df_train.corr()
plt.subplots(figsize = (12, 9))
sns.heatmap(corrmat, square = True, cmap = 'Greens');

在这里插入图片描述

cols = corrmat.nlargest(10, 'SalePrice')['SalePrice'].index # 数值最大的前十个
cm = np.corrcoef(df_train[cols].values.T)
plt.figure(figsize = (8, 6))
sns.heatmap(cm, cbar = True, annot = True, square = True, fmt = '.2f', cmap = 'Blues',
            annot_kws = {
   'size': 10}, yticklabels = cols.values, xticklabels = cols.values)

在这里插入图片描述

cols = ['SalePrice', 'OverallQual', 'GrLivArea', 'GarageCars', 'TotalBsmtSF', 'FullBath', 'YearBuilt']
sns.pairplot(df_train[cols], size = 3);

在这里插入图片描述

1.4 缺失值

total_missing = df_train.isnull().sum().sort_values(ascending = False)
percent = (df_train.isnull().sum() / len(df_train)).sort_values(ascending = False).round(3)
missing_data = pd.concat([total_missing, percent], axis = 1, keys = ['Total', 'Percent'])
missing_data.head()

在这里插入图片描述

二. 数据处理

2.1 去掉离群点

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

train = pd.read_csv(r'data\train.csv')
test = pd.read_csv(r'data\test.csv')
print('The train data size before dropping Id feature is: {}'.format(train.shape))
print('The test data size before dropping Id feature is: {}'.format(test.

最低0.47元/天解锁文章

弎见

关注

3
点赞
踩
32

收藏

觉得还不错? 一键收藏
3
评论
数据挖掘之房价预测任务

（一）：分析数据指标不同指标对结果的影响连续值与离散值的情况（二）：观察数据正太性是否满足正太分布数据变换操作（三）：数据预处理缺失值填充标签转换（四）：集成方法建模对比单模型回归效果平均与堆叠效果对比
复制链接

扫一扫