机器学习三要素包括数据、模型、算法。简单来说,这三要素之间的关系,可以用下面这幅图来表示:
总结成一句话:算法通过在数据上进行运算产生模型。
下面我们先分别来看三个要素。
数据
关于数据,其实我们之前已经给出了例子。
源数据
上一篇中,图1老鼠和其他动物和图2小马宝莉六女主就是现实中的两份样本集合。如果我们要训练“老鼠分类器”,或者做“小马种族聚类” 分析的话,它们就是原始数据(Raw Data)。
不过,我们之前也说了,计算机能够处理的是数值,而不是图片或者文字。
向量空间模型和无标注数据
那么,我们就需要构建一个向量空间模型(Vector Space Model/VSM)。VSM 负责将一个个各种格式(文字、图