机器学习（一）——监督学习（Supervised learning）

最新推荐文章于 2024-07-25 23:48:49 发布

qq_31589695

最新推荐文章于 2024-07-25 23:48:49 发布

阅读量3.1k

点赞数 2

machine learning 同时被 2 个专栏收录

23 篇文章 17 订阅

订阅专栏

machine learning

23 篇文章 5 订阅

订阅专栏

这篇博客探讨了监督学习的基本概念，以波特兰住宅价格预测为例，介绍了输入变量（房屋面积）与输出变量（价格）的关系。文章定义了输入（features）、输出（target）和训练集，并讨论了回归问题作为连续输出的监督学习任务。监督学习的目标是找到一个假设函数，用于对未知数据进行准确预测。

摘要由CSDN通过智能技术生成

原文：http://cs229.stanford.edu/notes/cs229-notes1.pdf

让我们从几个有监督的学习问题的例子开始。假设我们有一个数据集，显示来自俄勒冈州波特兰的47个住宅的起居面积和价格：

$Living\, area (feet^{2})$
2104	400
1600	330
2400	369
1416	232
3000	540
$\vdots$	$\vdots$

我们可以绘制这些数据：

鉴于这样的数据，我们怎样针对他们居住面积的大小来预测波特兰其他房屋的价格？

在这里我们先规定一下符号和定义，它们在将来还会用到。我们将使用 $x^{(i)}$ 来表示 “输入（input）” 变量（在这个例子中就是房屋的面积），这也被称作输入的特征（feature）。使用 $y^{(i)}$ 来表示 “输出（output）” 或者目标（target）变量，即我们想要去预测的值（这个例子中是指价格）。我们用来学习的数据集是含有m个训练样本 $\left \{ \left ( x^{(i)}, y^{(i)};i=1,\cdots ,m \right ) \right \}$ 的列表——被称作是训练集（training set）。注意上标 $\left ( i \right )$ 在符号表示中只是训练集的索引（index）记号，与数学中的求幂无关。另外我们使用来表示输入值的空间，使用来表示输出值的空间。在这个例子中，输入和输出空间都是实数域，即 X=Y=R

接下来对监督学习问题给出一个更加正式的描述：我们的目标是，给定一个训练集，通过训练得到一个函数 $h:X\rightarrow Y$ ,使得 $h\left ( x \right )$ 对于的真实值而言是一个 ”好的（good）“ 预测结果。由于历史原因，函数被称为假设（hypothesis）。从图片上看，整个过程是是这样的：

当我们试图预测的目标变量是连续（continuous）的，就像我们的房屋面积-价格的例子一样，这样的学习问题被称为回归（regression）问题。当 y 只能取一小部分离散（discrete）值时（比如给定房屋面积，我们要来确定这个房子是一个住宅还是公寓），这样的学习问题被称为分类（classification）问题。