有监督的学习:
让我们开始讨论几个有监督的学习的问题。假设我们有47个Portland.Oregon地区的房子的面积及其价格的数据。
我们可以描出这些数据:
从这些给出的数据,我们怎样预测Portland.地区其他的房屋价格,也是就希望得到一个函数以房屋面积为自变量,从而得的预测的房屋价格。
我们建立我们以后要使用的符号,我们将使用表示输入变量(这个例子中的房屋面积),也叫输入特征,表示输出变量或者目标变量,就是我们要试图预测的价格。一对(,)叫做一个训练样例,我们将使用这些数据进行学习的—一列m个训练样例组成的,称作一个训练集。注意到这记号的上标“(i)”
仅是它在训练集中的索引,不是求它的乘幂。我们也将使用X表示输入值的集合,Y表示输出值的集合。这个例子中,X=Y=R。
为了稍微形式化的描述有监督的学习问题,我们的目标是,从一个给定的训练集中学习到一个函数h:XY,使得这h(x)是一个和真实的y比较吻合的预测。由于历史原因,这函数h叫做一个假设。这过程被描绘如下图:
当我们要预测的目标变量是连续的,正如我们房屋例子,我们称这学习问题是规划问题。当这y只能取几个离散值(比如,从给定的房屋面积预测这房子是住宅还是公寓。)的时候,我们称它是一个分类问题。