项目二：房价预测

最新推荐文章于 2024-04-01 19:45:29 发布

看不见我呀

最新推荐文章于 2024-04-01 19:45:29 发布

阅读量326

点赞数

分类专栏：机器学习实战

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gaotihong/article/details/100807600

版权

机器学习实战专栏收录该内容

26 篇文章 0 订阅

订阅专栏

目标：根据一些属性，预测波士顿的房价

关键步骤：

1.分析数据

1.1观察数据的类型，

是否有字符串型数据、是否有缺失值、数据范围是否合理。

2.数据预处理(清洗数据)

2.1正确性：有没有异常值

2.2完整性：是否有缺失值

在本例中，我们使用以下两种方法，

一是丢弃数据,即选择丢弃过多空数据的特征（或者直接丢弃数据行，前提是NA数据占比不多），

二是填补数据，填补的方法也很多，均值中位数众数填充等等都是好方法。

三是对字符属性进行分析转化，转化为计算机可以识别的特征。

3.特征分析

分析特征的相关性。

可以考虑绘制直方图，观察数据的分布。

可以考虑相关热图等手段分析。cofuse-matrix，sklearn就有

可以创造特征、即根据已有特征重新构造新的特征。

必要时，需要进行数值区间缩放，即归一化、标准化等。

创造性主要是说两种情况，一种是对现有数据的处理，比如对类别的独热编码（One-hotEncoder）或者标签编码（LabelEncoder），数值的区间缩放，归一化，标准化等等，另一种就是根据某一个或多个特征创造一个新的特征，例如某特征按组分类(groupby)后，或者某些特征组合后来创造新特征等等。

【因为我们筛选出来的特征都为数值类型特征，所以我们只做标准化的操作：这个项目是一个回归类型的项目，而我们的回归算法对标准正态分步预测较为准确，从我们的目标数据可以看出数据是一个偏态分布，那么我们使用log将数据从偏态分布转换为标准正态分布，最后进行标准化。】

4.建立衡量模型准确性的标准

采用各种得分策略。关键时候需要自己构建得分策略。

5.建立模型，分析模型的表现

【主要是过拟合、欠拟合的分析，还有最优参数的调整。】

<此时，各种交叉验证策略就可以大展身手了。train_test_split/kfold/cross_val_score/gridsearchcv>

6.最后。使用全部数据在最优参数上重新训练模型。完毕

看不见我呀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。