比赛赛题的思路(波士顿房价预测)
1、如何看赛题?
Competition Description ==> 赛题描述
Practice Skills ==> 练习的技能
比如,房价是连续值,不能分类只能够回归。
2、看赛题的什么内容?
看数据集的描述,包括描述、特征
3、看到数据之后才能做出判断
把数据下载下来以及查看具体数据。
4、思路分享
5、读入CSV数据并查看数据
6、总结
拿到数据集之后不要着急就开始,应该仔细查看数据的描述,包括数据的基本特征。根据数据来判断这是一个什么样的具体问题,什么样子的算法可以完成这样子的问题。然后就是对具体数据的清洗,数据的类型、数据是否缺失、数据的特征选择等等。
本次数据一共有四个文件,分别是train.csv、test.csv、data_description.txt、sample_submission.csv;
train.csv为训练数据,1460×81;
test.csv为测试数据,1459×80;
data_description.txt,其中描述了数据各个参数的含义;
sample_submission.csv,为数据提交样例,1459×2也就是房子及其预测价格。
然而并不是所有的数据参数对结果都会产生影响,也就是说不是给出的80个参数都是有效参数;同时有的参数缺失了或者为NaN,这样子的话这个数据就会失去其价值,我们能够用来训练的数据量就会减少很多。因此在数据清洗和数据特征中就需要对数据进行一个合适的处理,不然最后的预测结果会不太理想。