项目二:房价预测

目标:根据一些属性,预测波士顿的房价

关键步骤:

1.分析数据

1.1观察数据的类型,

是否有字符串型数据、是否有缺失值、数据范围是否合理。

2.数据预处理(清洗数据)

2.1正确性:有没有异常值

2.2完整性:是否有缺失值

在本例中,我们使用以下两种方法,

一是丢弃数据,即选择丢弃过多空数据的特征(或者直接丢弃数据行,前提是NA数据占比不多),

二是填补数据,填补的方法也很多,均值中位数众数填充等等都是好方法。

三是对字符属性进行分析转化,转化为计算机可以识别的特征。

3.特征分析

分析特征的相关性。

可以考虑绘制直方图,观察数据的分布。

可以考虑相关热图等手段分析。cofuse-matrix,sklearn就有

可以创造特征、即根据已有特征重新构造新的特征。

必要时,需要进行数值区间缩放,即归一化、标准化等。

创造性主要是说两种情况,一种是对现有数据的处理,比如对类别的独热编码(One-hotEncoder)或者标签编码(LabelEncoder),数值的区间缩放,归一化,标准化等等,另一种就是根据某一个或多个特征创造一个新的特征,例如某特征按组分类(groupby)后,或者某些特征组合后来创造新特征等等。

【因为我们筛选出来的特征都为数值类型特征,所以我们只做标准化的操作:这个项目是一个回归类型的项目,而我们的回归算法对标准正态分步预测较为准确,从我们的目标数据可以看出数据是一个偏态分布,那么我们使用log将数据从偏态分布转换为标准正态分布,最后进行标准化。】

4.建立衡量模型准确性的标准

采用各种得分策略。关键时候需要自己构建得分策略。

5.建立模型,分析模型的表现

【主要是过拟合、欠拟合的分析,还有最优参数的调整。】

<此时,各种交叉验证策略就可以大展身手了。train_test_split/kfold/cross_val_score/gridsearchcv>

6.最后。使用全部数据在最优参数上重新训练模型。完毕

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值