西瓜书籍-机器学习(第三章:线性模型)

一:知识要点(看西瓜没觉得很难,但自己动手推导公式并归纳整理时却感觉很难。图中公式粗糙。感兴趣的可以详细看西瓜书。)

二:波士顿房价训练

       波士顿房价数据集是经典的线性回归训练数据集,已经集成到sklearn机器学习库中。训练数据集包含了13个属性和1个房价数据。训练数据集中每个属性的含义如下:

(1)分析训练数据集属性与房价的相关性分析(参考简书中一片文章,相关性分析是在机器学习中必须要做的。从相关性分析中我们可以知道训练数据集中哪些属性是最重要的)。通过相关性分析,我们知道RM(每栋住宅房间数正相关性最高,比如香港地区房价远高于内地,但每栋楼的房间数据却很多,让人有密集恐惧症);而LSTAT(房东属于低收入阶层的比例负相关性最高,大家想想北、上、广、深等一线城市的房东的租房收入怎么会低哪)

(2)进一步分析属性RM(每栋住宅房间数)与房价的关系分布图,从图中我们可以看出在房价超出某值以后,房价与房间数已经不为线性相关了。这些为数据异常点,说明在房价超出某值后,RM已经不再是提高房价的属性(比如北京的四合院,那绝对可以是称得上天价了)。

(3)从训练数据集中去除线性关系不明显的数据点,然后对单个属性建模。

(4)也可以采用主成分分析等数据降维的方法找到主要有关属性特征,对多个属性进行建模分析。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值