sklearn快速入门教程 1.模型是如何工作的

sklearn快速入门教程


前言

本文是kaggle上 机器学习 的入门课程,学习大约为 3 个小时,共七部分,除第一部分介绍外,每部分包括辅导和练习。
此为第一部分,原文链接
对于机器学习来讲这个是初级教程。

介绍

我们将从机器学习模型如何工作以及如何使用的概述开始。如果你以前做过统计建模或机器学习,这可能会让你觉得很基本。别担心,我们很快就会构建强大的模型。

本课程将让您在以下场景时构建模型:

你表弟在房地产投机上赚了数百万美元。因为你对数据科学感兴趣,他愿意与你成为商业伙伴。他会提供资金,你会提供预测各种房屋价值的模型。

你问你表弟过去是如何预测房地产价值的,他说这只是直觉。但更多的质疑表明,他从过去看到的房屋中识别出了价格,并利用这个模式预测他所考虑的新房屋的价格。

机器学习也是如此。我们将从一个名为决策树的模型开始。有一些更奇特的模型可以给出更准确的预测。但决策树很容易理解,它们是数据科学中一些最佳模型的基本构建模块。

为了简单起见,我们将从最简单的决策树开始。

它只将房屋分为两类。任何正在考虑的房屋的预测价格都是同类房屋的历史平均价格。
我们使用数据来决定如何将房屋分成两组,然后再次确定每组的预测价格。从数据中捕获模式的这一步称为拟合或训练模型。用于拟合模型的数据称为训练数据。

模型拟合的细节(例如,如何分割数据)非常复杂,我们将稍后保存。模型拟合后,可以将其应用于新数据,以预测额外房屋的价格。

改进决策树

以下两种决策树中,哪一种更可能来自房地产培训数据的拟合?
firsttree

左边的决策树(决策树1)可能更有意义,因为它抓住了一个现实,即卧室多的房子往往比卧室少的房子售价更高。该模型最大的缺点是,它没有捕捉到影响房价的大多数因素,如浴室数量、地块大小、位置等。
在这里插入图片描述
使用具有更多“拆分”的树可以捕获更多因子这些树被称为“深”树。同时考虑每套房屋地块总面积的决策树可能如下所示:

secondtree

你可以通过追踪决策树来预测任何房子的价格,总是根据房子的特征选择相应的路径。这所房子的预计价格在树的底部。我们在底部做预测的那一点叫做叶子。

叶子上的分割和值将由数据决定,所以是时候检查一下将使用的数据了。

继续

让我们更具体一点。是时候探索你的数据了,。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值