404 数据集(data set)
记录的集合,假如我们用 3 个特征,分别为性别、头衔、有无同行人来预测泰坦尼克号上船员的生死,并且拥有基于这 3 个特征的 892 条记录,其中一条记录的取值为:
性别=female,头衔=Mrs,有无同行人=True
如果记录到 .csv 文件中,这个文件的结构可以记为: train[892][3]
,这样一个二维数组,行数为 892,列数为 3.
405 示例(instance)
每条记录是关于一个事件或对象的描述,也称为样本,比如以上其中一条记录:
性别=female,头衔=Mrs,有无同行人=True
可看做是一个实例
406 属性(attribute)
反映事件或对象在某方面的表现或性质的事项,例如色泽,根蒂,响声等,又称为特征 feature. 如下红框标出的便是 3 个特征:
属性上的取值如下红框所示,称为特征的取值。
407 样本空间(sample space)
样本空间又称为属性空间,attribute space,或输入空间。
它可以理解为训练数据中实际出现的所有属性值构成的集合空间,如果仅考察数据集中的 Genre 列,Genre 列的样本空间为 27,因为 Genre 列一共有 27 种不同取值。
和它有相似的一个概念叫做假设空间(hypothetical space),它是理论上的所有可能属性值构成的集合空间。
如果我们在购买某个股票时假定只考虑两个主要特征:股票经纪公司等级和股票最近3个月的涨幅情况,进而判断是否购买某只股票。
假定股票经纪公司等级取值为 4 种:A等,B等,C等,还要考虑到一种特殊取值 *,这个特征对于是否买这只股票是无关紧要的;
股票最近 3 个月的涨幅情况取值为 3 种:涨,降, *
(同上面解释)
那么根据这 2 个特征和特征取值,并且股票的标签 y 取值为买或不买,因此理论上可以得到一个由 12 种不同取值组成的假设空间:$4 \times 3 = 12 $
408 特征向量(feature vector)
假如将以下 11 个属性(注意:Survived 列为标签列,不算在内)作为 11 个坐标维度,其值就是一个坐标向量,被称为一个特征向量,记为 $(x1, x2, …, x_11 )$
409 标记(label)
关于样本的标签信息,比如判断船员是否能被获救,那么这位船员便会拥有标记示例,一般用 $(Xi , yi) $ 表示第 $i$ 个样例,其中 $yi$ 是样本 $Xi$ 的标记。如下红框对应列就是样本的标记 $y_i$
410 维数(dimensionality)
每个样本包含的属性个数,泰坦尼克号源数据集共有 11 个特征如上图所示,那么它的维数便是 11,这是机器学习中需要理解的重要概念,同时要注意和线代中维数概念加以区分。
如下影评数据集的维数为 12 :
411 学习(learning)
从数据中学得模型的过程,又称为训练(training)。正如上文所示,892 条船员数据集,根据它的 11 个特征和每条特征对应的标记,经过计算最后得到了一个 $f$,通过这个 $f$ 我们能预测第 893 位船员是否获救,这个过程被称为学习。
412 训练数据 (training data)
训练过程中使用的数据,其中每个样本称为一个训练样本(training sample),训练样本组成的集合称为训练集(training set)。如下泰坦尼克号训练数据集的文件名称
共有 892 行,除去表头共有 891 个样本组成的训练数据,Survived 列为标签。
通过这些训练数据学习,最终得出一个 $f$,也就是我们学到的模型。与之相对应的是测试数据,测试数据中缺少标签列。例如,泰坦尼克号测试数据集中没有 Survived 列,是一个 418 行 11 列的数据集。
训练数据主要用于训练模型,训练后得到的模型对训练数据是可见的,那么再基于训练数据评估模型的好坏就完全失去意义,因此我们需要找到一些模型未知的新数据,以此来评估模型才具有价值,我们称这部分数据为测试数据。
通常训练数据占到整个数据集的 80%,测试数据占 20%,如下所示:
基于训练数据和测试数据模式的机器学习流程,主要就是先在训练数据集上得到一个模型,然后再在测试数据集上评估模型,根据在测试数据集上获得的效果调整模型,然后再训练,重复迭代。从中选出在测试数据集上表现最好的模型。