import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import preprocessing #归一化用的工具
from sklearn import linear_model
from sklearn.model_selection import train_test_split #用于数据分割
#把训练集和测试集的数据读取
train=pd.read_csv(‘train.csv’,index_col=0)
test=pd.read_csv(‘test.csv’,index_col=0)
y_test=pd.read_csv(‘sample_submission.csv’,index_col=0)
#方便统一处理,先将二者数据合并,
set=pd.concat([test,y_test],axis=1) #注意这里axis=1,是给test加上一列
all_set=pd.concat([train,set],axis=0) #这里axis=0,是要把两个表格以增加行数方式拼接
#查看数据信息
all_set.info()
#PoolQC , MiscFeature , Alley 三个特征缺失特别严重,所以将这三个特征删除
all_set=all_set.drop([‘PoolQC’,‘MiscFeature’,‘Alley’] , axis=1)
#剩下的很多样本中偶有缺失值,将有缺失值的样本都删除
all_set=all_set.dropna()
all_set.info() #发现就206个样本是完整的,好像删的太狠了。。。
#因为各个特征取值变化幅度太大,所