在阅读这篇博文之前你需要了解的数学知识:
1,误差:本篇用平方差误差公式。
2,函数的收敛性:当函数趋向无穷大或无穷小,或某个具体数值时,该函数总是逼近某个值,这就是函数的收敛性。
3,导数:导数的数学意义就是这个点的斜率。
4,矩阵。
一,模型表示
我们的第一个学习算法是线性回归算法。这篇博文你将会使你了解监督学习过程完整的流程。让我们通过一个例子来开始:这个例子是预测住房价格的,我们要使用一个数据集,数据集包含某市的住房价格。在这里,我要根据不同房屋尺寸所售出的价格,画出我的数据集。比方说,如果你朋友的房子是 1250 平方尺大小,你要告诉他们这房子能卖多少钱。那么,你可以做的一件事就是构建一个模型,也许是条直线,从这个数据模型上来看,也许你可以告诉你的朋友,他能以大约 220000(美元)左右的价格卖掉这个房子。这就是监督学习算法的一个例子。如图:
它被称作监督学习是因为对于每个数据来说,我们给出了“正确的答案”,即告诉我们:根据我们的数据来说,房子实际的价格是多少,而且,更具体来说,这是一个回归问题。回归一词指的是,我们根据之前的数据预测出一个准确的输出值,对于这个例子就是价格,同时,还有另一种最常见的监督学习方式,叫做分类问题,当我们想要预测离散的输出值,例如,我们正在寻找癌症肿瘤,并想要确定肿瘤是良性的还是恶性的,这就是 0/1 离散输出的问题。更进一步来说,在监督学习中我们有一个数据集,这个数据集被称训练集。
以上图的房屋交易问题为例,假使我们回归问题的训练集(Training Set)如下表所示:
我们将要用来描述这个回归问题的标记如下:
m 代表训练集中实