一 、问题引入
假设在上海,一个关于房屋销售数据的表格,如下:
面积(m2) | 售价(万元) |
---|---|
123 | 250 |
150 | 320 |
87 | 160 |
102 | 220 |
。。。 | 。。。 |
根据表格我们可以做出一个图像,x轴是房屋的面积,y轴是房屋的售价,如下所示:
如果现在给出一个新面积的房屋,但是在销售价钱中的记录是没有的,我们应该如何取定这个房屋的售价呢?
我们可以用一条直线或者曲线尽量准的拟合这些数据,当有了新的输入值之后,我们可以在该曲线上找到新的返回值,用直线拟合的结果如下所示:
绿色的点就是我们想要预测的点。
对应上面的案例,我们给出一些概念和常用的符号:
房屋销售记录表:training set or training data,是我们流程中的输入数据,一条数据对应一条sample
房屋销售价钱