机器学习的数据

数据

在这里插入图片描述

数据整体的信息
在这里插入图片描述

在这里插入图片描述

我们整个数据就可以表示成这样
在这里插入图片描述

  • 上图中的数据整体叫数据集(data set)
  • 图中每一行数据称为一个样本(sample)。
  • 除最后一列,每一列表达样本的一个特征(feature)
  • 最后一列称为标记(label)

在这里插入图片描述

除了第一行和最后一列以外的信息就是我们所需要的数据, 通常数据我们用矩阵X来表示, 最后一列的标记我们用y像两个来表示

X矩阵中第i个样本行写作 X ( i ) X^{(i)} X(i), 第i个样本第j个特征值 X j ( i ) X_{j}^{(i)} Xj(i)。y向量中第i个样本的标记写作 y ( i ) y^{(i)} y(i)

每个样本的特征所组成的向量称为特征向量
在这里插入图片描述

我们通常表示向量都是用列向量的形式表示

在这里我们选择数据集中前两个特征的数据, 并用可视化图表的形式表示出来, 这两个特征所组成的是一个二维空间, 样本中每个特征的值所组成的向量就代表该空间中的每个点, 那么这个空间我们就称之为特征空间(feature space)

在这里插入图片描述

分类的本质就是在特征空间切分。当我们输入一个数据的时候, 我们把它在特征空间中进行表示,然后根据新输入数据的落点区域去判断去花的种类
在这里插入图片描述

特别强掉的是, 由于可视化的需要, 所以很多时候我们把数据降到两维, 因为通常对于一个数据而言都是具有非常多的特征的, 比如上面的鸢尾花数据集中, 其中就有四个特征, 那么我们其实是在四维的空间中进行切分, 那么这是无法可视化的, 所以我们通常会采用降维的方式进行数据分类, 最后我们再把低维空间得到的结论推广到高维空间, 这在高维空间中都同理。

在机器学习的领域中特征可以是一个非常抽象的一个事物, 比如下面这个图象识别数据集中的一个样本5, 它是一个灰度图像, 它的特征值相比于彩色图像特征少一点
在这里插入图片描述

在这里:

  • 图象, 每一个像素点都是特征
  • 一个图像的特征的数目:比如28*28的图像有28*28=784个特征
  • 如果是彩色图像则特征更多

在机器学习领域中, 特征不都是有语义的, 也有可能是非常抽象的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

DevGeek

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值