小白自学——房价预测（七）

最新推荐文章于 2021-04-08 13:26:56 发布

不能吃的橘子

最新推荐文章于 2021-04-08 13:26:56 发布

阅读量412

点赞数

分类专栏：大数据预测文章标签：大数据

本文链接：https://blog.csdn.net/weixin_40611274/article/details/83146471

版权

大数据预测专栏收录该内容

6 篇文章 1 订阅

订阅专栏

数据预处理

这里我们会用到虚拟变量进行一个预处理。虚拟变量（dummy variable）是指用0或1来表示某个特定的分类是否存在的人工变量，这里我们对floors、grade做编码处理，将bedrooms和bathrooms看作是连续变量。

ordinal_cols = ['floors', 'grade']

for col in ordinal_cols:
    dummies = pd.get_dummies(kc_train[col], drop_first=False)
    dummies = dummies.add_prefix("{}#".format(col))
    kc_train.drop(col, axis=1, inplace=True)
    kc_train = kc_train.join(dummies)
    
kc_train.info()

drop_first 是否从备选项中删除第一个，建模的时候为避免共线性使用。
dummies.add_prefix（）是加前缀的函数。
kc_train.drop（）是代表删除数据框某行。其中的axis=0代表跨行，axis=1代表跨列，这里代表的是将“列名”对应的列标签沿着水平的方向依次删除。
kc_train = kc_train.join(dummies)代表将处理好的虚拟变量赋值。

输出结果如下
在这里插入图片描述
由于连续变量太多还有包含yr_renovated这类比较难以处理的变量，这里我们暂不做数据归一化处理。
接下来我们再分割训练集。

import imp
from sklearn.model_selection import train_test_split

np.random.seed(21)
target = kc_train['price']
kc_train.drop('price', axis=1, inplace=True)
train_data, val_data, train_y, val_y = train_test_split(kc_train, target, train_size=0.8, random_state=21)

np.random.seed(21) 指定生成“特定”的随机数-与seed 21 相关
sklearn.cross_validation.train_test_split(*arrays, **options)的参数

*arrays:具有相同长度/形状的可索引序列。
train_size:训练集所占的比例，在(0，1)之间
random_state :随机种子数，可选int，RandomState instance或者none。默认值是none，如果是int，则random_state是随机数生成器使用的种子; 如果是RandomState实例，则random_state是随机数生成器; 如果没有，随机数生成器所使用的RandomState实例np.random。