Python3入门机器学习
1.1 机器学习世界的数据
以著名的鸢尾花数据为例,如下:
提取出关于它的数据,如下:
- 数据整体叫数据集(data set)
- 每一行数据成为一个样本(sample)
- 除最后一列,每一列表达样本的一个特征(feature)
- 最后一列,称为标记(label)
- 第i个样本行写作:
第i个样本第j个特征值写作: - 第i个样本的标记写作:
每一个样本可以用一个特征向量来表示,整个数据集可用一个矩阵来表示,如下:
在每一样本中,可以在维度空间中用一个点来表示。例如,为了表示方便,我们只选取鸢尾花的萼片长度和宽度两个特征来描绘点,如下为n朵花的图:
- 特征空间(feature space)
- 分类任务本质就是在特征空间切分
- 在高维空间同理
但是,特征可以很抽象,比如下面的图像:
- 如一个图像,每一个像素点都是特征
- 28 * 28的图像有28 * 28=784个特征
- 如果是彩色图像特征更多