第二章 端到端的机器学习项目——最全的房价预测案例

学会了使用自动目录,这个可以美美的了。

目录

1.前置知识

1.1使用真实数据

1.2观察大局

1.3框架问题

1.4 选择性能指标

1.5检查假设

2.获取数据

2.1创建工作区

2.2下载数据

2.3分析数据

2.3.1统计学的角度分析——head/info/value_counts/describe

2.3.2图形的角度分析——直方图对

2.4创建测试集——引入分层抽样

3.从数据集探测和可视化中获得洞见

3.1可视化地理位置信息

3.2寻找相关度

3.2.1统计的方法

3.2.3图示的方法

3.3试验不同属性的组合


 

1.前置知识

1.1使用真实数据

机器学习最好使用真实数据,而不仅仅是使用人工数据。可以选择开源数据集。

1.2观察大局

任务:使用加州人口的普查的数据建立起加州的房价模型。数据中包含很多指标:每个街区人口的数量,收入中位数等,

目的:学习一个模型,来预测房价中位数。

【首先应该拿出机器学习项目清单】

1.3框架问题

(1)了解建立模型的目的很重要,盈利模式是什么样的很重要。因为模型不是最终目的,这些问题将决定你怎么设定问题,选择什么算法,使用什么测量方式来衡量模型的性能。

了解到:本文建立模型的目的及盈利模式:此模型的输出将会跟其他许多信号,一起被传送到下一个机器学习系统,此输出将用来决策一个给定的区域是否值得投资。

(2)了解的第二个问题:当前的解决方案,如果有的话。

你可以将其当其当做参考,也 可以获得解决问题的洞察。

回答:当前是一个专家团队在使用复杂的规则进行估算。误差率为15%。

(3)归类问题

有了标签,属于监督学习;

因为要对某个值进行预测,因此属于回归任务。

本系统中有多个变量(多个属性),因此属于多变量回归任务。

本系统没有一个连续的数据流持续更新,数量也不多,因此批量学习就可以胜任。

1.4 选择性能指标

回归问题常选择的指标为:均方根误差(rmse)

RMSE通常是回归任务的首选指标,但是当有很多离群值时,可以考虑平均绝对误差,(MAE)

1.5检查假设

列举和验证到目前为止(由你或其他人做出的)假设,是一个非常良好的习惯,这在初期可以检查出很严重的问题。

例如:当我们的机器学习模型输出价格给下游系统时,我们的假设:价格会被合理使用。

但是如果下游系统是将价格转化为类别(例如:廉价、中等或者昂贵),转而使用这些类别,而不是价格本身呢?

在这种情况下,并不需要完全准确的估计出价格,我们的系统只需要预测出类别就可以了。

因此,我们的任务,应该是分类任务,而不是回归任务。

【你肯定不愿意在回归系统上努力几个月后,才发现这个问题】

2.获取数据

2.1创建工作区

【强烈推荐创建一个隔离环境,这样可以在库版本不冲突的情况下处理不同的项目】

2.2下载数据

【你可以使用浏览器下载压缩包,运行tar xzf housig.csv,但是最好的选择是创建一个简单的函数来实现它。

——尤其是当数据定期发生变化时,这个函数尤其重要。(如果在多个机器上安装数据时,这个自动获取数据的函数也很好用。)

——你可以编写一个脚本,在需要获取数据时,直接运行。】

2.3分析数据

2.3.1统计学的角度分析——head/info/value_counts/describe

2.3.2图形的角度分析——直方图对

2.4创建测试集——引入分层抽样

3.从数据集探测和可视化中获得洞见

3.1可视化地理位置信息

3.2寻找相关度

3.2.1统计的方法

3.2.3图示的方法

3.3试验不同属性的组合

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值