一:知识要点(看西瓜没觉得很难,但自己动手推导公式并归纳整理时却感觉很难。图中公式粗糙。感兴趣的可以详细看西瓜书。)
二:波士顿房价训练
波士顿房价数据集是经典的线性回归训练数据集,已经集成到sklearn机器学习库中。训练数据集包含了13个属性和1个房价数据。训练数据集中每个属性的含义如下:
(1)分析训练数据集属性与房价的相关性分析(参考简书中一片文章,相关性分析是在机器学习中必须要做的。从相关性分析中我们可以知道训练数据集中哪些属性是最重要的)。通过相关性分析,我们知道RM(每栋住宅房间数正相关性最高,比如香港地区房价远高于内地,但每栋楼的房间数据却很多,让人有密集恐惧症);而LSTAT(房东属于低收入阶层的比例负相关性最高,大家想想北、上、广、深等一线城市的房东的租房收入怎么会低哪)
(2)进一步分析属性RM(每栋住宅房间数)与房价的关系分布图,从图中我们可以看出在房价超出某值以后,房价与房间数已经不为线性相关了。这些为数据异常点,说明在房价超出某值后,RM已经不再是提高房价的属性(比如北京的四合院,那绝对可以是称得上天价了)。
(3)从训练数据集中去除线性关系不明显的数据点,然后对单个属性建模。
(4)也可以采用主成分分析等数据降维的方法找到主要有关属性特征,对多个属性进行建模分析。