机器学习(一)——监督学习(Supervised learning)

这篇博客探讨了监督学习的基本概念,以波特兰住宅价格预测为例,介绍了输入变量(房屋面积)与输出变量(价格)的关系。文章定义了输入(features)、输出(target)和训练集,并讨论了回归问题作为连续输出的监督学习任务。监督学习的目标是找到一个假设函数,用于对未知数据进行准确预测。
摘要由CSDN通过智能技术生成

原文:http://cs229.stanford.edu/notes/cs229-notes1.pdf

让我们从几个有监督的学习问题的例子开始。假设我们有一个数据集,显示来自俄勒冈州波特兰的47个住宅的起居面积和价格:

Living\, area (feet^{2})Price(1000$s)
2104400
1600330
2400369
1416232
3000540
\vdots\vdots

我们可以绘制这些数据:

 

鉴于这样的数据,我们怎样针对他们居住面积的大小来预测波特兰其他房屋的价格?

在这里我们先规定一下符号和定义,它们在将来还会用到。我们将使用 x^{(i)}来表示 “输入(input)” 变量(在这个例子中就是房屋的面积),这也被称作输入的特征(feature)。使用 y^{(i)}来表示 “输出(output)” 或者 目标(target) 变量,即我们想要去预测的值(这个例子中是指价格)。我们用来学习的数据集是含有m个训练样本\left \{ \left ( x^{(i)}, y^{(i)};i=1,\cdots ,m \right ) \right \} 的列表——被称作是训练集(training set)。注意上标 \left ( i \right )在符号表示中只是训练集的 索引(index) 记号,与数学中的求幂无关。另外我们使用X来表示输入值的空间,使用Y来表示输出值的空间。在这个例子中,输入和输出空间都是实数域,即 X=Y=R

接下来对监督学习问题给出一个更加正式的描述:我们的目标是,给定一个训练集,通过训练得到一个函数h:X\rightarrow Y,使得 h\left ( x \right )对于y的真实值而言是一个 ”好的(good)“ 预测结果。由于历史原因,函数h被称为 假设(hypothesis)。从图片上看,整个过程是是这样的:

 

当我们试图预测的目标变量是连续(continuous)的,就像我们的房屋面积-价格的例子一样,这样的学习问题被称为回归(regression)问题。当 y 只能取一小部分离散(discrete)值时(比如给定房屋面积,我们要来确定这个房子是一个住宅还是公寓),这样的学习问题被称为分类(classification)问题。

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值