人们根据生活经验知晓,相比于凉爽的天气,蟋蟀在较为炎热的天气里鸣叫的更为频繁。数十年来,专业和业余昆虫爱好者已经将每分钟鸣叫的叫声和温度方面的数据编入目录。Ruth将她喜爱的蟋蟀数据库提供出来,我们可以利用该数据库训练一个模型,进而预测鸣叫声和温度的关系。
- 首先将数据绘制成图表,先了解一下数据的分布情况:
图1 每分钟的鸣叫与温度(摄氏度)的关系
毫无疑问,次曲线表明温度随着鸣叫声次数的增加而上升。鸣叫声与温度之间的关系是线性关系吗?是的,您可以通过绘制一条直线来近视的表示这种关系,如下所示:
图二 线性关系
事实上,虽然该直线并未精确无误地经过每个点,但是针对我们拥有的数据,清楚地显示了鸣叫声与温度的关系。只需要运用一点代数知识,就可以将这种关系表示出来,如下所示:
$$y = mx + b $$
其中:
- y指的是温度,即我们试图预测的值。
- m指的是直线的斜率。
- x指的是每分钟的鸣叫次数,即输入特征的值。
- b指的是y轴截距。
按照机器学习的惯例,您需要写一个存在细微差别的模型方程式:
\[y' = b + w_1x_1\]
其中:
- y'指的是预测标签(理想输出值)
- b指的是偏差(y轴截距)。而在一些机器学习文档中,它称为w0。
- w1指的是特征1的权重。权重对应上一个公式中的m,即直线的斜率。
- x1指的是特征(即已知输入项)。
下标预示着可以用多个特征来表示复杂的模型。例如具有三个特征的模型可以采用以下方程式表示:
$$y' = b + w_1x_1 + w_2x_2 + w_3x_3$$