第二章 机器学习基础概念
1、机器的数据
我们以鸢尾花的数据为例。收集大量鸢尾花的数据,花瓣的萼片长度、萼片宽度、花瓣长度、花瓣宽度,同时标记属于se、ve、vi三种鸢尾花之一。
-
数据的整体叫做数据集。
我们收集的所有鸢尾花的数据就是一个数据集。 -
每一行数据称为一个样本。
(萼片长度=5.1,萼片宽度=3.5,花瓣长度=1.4、花瓣宽度=0.2、花期=se(0)),这样一行记录,称之为一个样本。 -
除最后一列,每一列表达样本的一个特征。
我们把萼片长度、萼片宽度、花瓣长度、花瓣宽度,叫做样本的特征。
(萼片长度=5.1,萼片宽度=3.5,花瓣长度=1.4、花瓣宽度=0.2)称为一个样本的特征向量。赋予语义以后,通常用一个列向量表示。
-
最后一列,称之为标记。
根据花朵的所有特征以及采集时花朵的状态,我们可以对花朵的花朵的花期进行标记,标记为待开的se(0)、盛放的ve(1)、凋谢的vi(2)三种。 -
用大写字母X表示特征矩阵,用小写字母表示y表示标记。第i个样本行写作
第i个样本第j个特征值
第i个样本的标记写作