房价预测任务
目标 :根据房屋属性预测每个房子的最终售价
任务流程:
(一)分析数据指标
- 不同指标对结果的影响
- 连续值与离散值的情况
(二)观察数据正态性
- 是否满足正态分布
- 数据交换操作
(三)数据预处理
- 缺失值填充
- 标签转换
(四)集成方法建模对比
- 单模型回归效果
- 平均与堆叠效果
In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import norm
from scipy import stats
import warnings
%matplotlib inline
warnings.filterwarnings("ignore")
train_data = pd.read_csv("./data/house-prices/train.csv")
test_data = pd.read_csv("./data/house-prices/test.csv")
train_data.head()
Out[1]:
In [2]:
train_data.describe()
Out[2]:
In [3]:
train_data.columns.sort_values
Out[3]:
In [4]:
test_data.head()
Out[4]:
In [5]:
# 房屋价格
train_data.SalePrice.describe()
Out[5]:
In [6]:
plt.rcParams["font.sans-serif"]='SimHei'
plt.rcParams['font.size']=14
sns.distplot(train_data["SalePrice"],rug=True)
plt.show()
In [7]: