机器学习基本概念

1.数据

机器学习首先要处理的就是大量的数据,比较经典的数据集是鸢尾花数据集。

鸢尾花数据集UCI Machine Learning Repository

每个样本有四个数据,sepal length、sepal width、petal length、petal width,这些术语的含义如图所示。鸢尾花分为三个种类Virginica、Versicolor、Setosa。

这个数据集中的数据都是比较规整的,实际的数据就未必这么完美了,会有很多极端值、缺陷值。

2.数据集

数据的整体就叫做数据集。

每一行数据称为一个样本,一朵花的数据也是一个样本,如下表所示:

除最后一列,每一列代表样本的一个特征,一般用一个矩阵X表达这些数值,第i个样本表示为X^{(i)},第i个样本第j个特征值表示为X_{j}^{(i)},最后一列称为标记(label),第i个样本的标记写作y^{(i)}2代表Virginica   1代表Versicolor  0代表Setosa

我们用数学向量表达这些数据,其中数学上往往用列向量表示一个向量。

每个特征向量取转置矩阵,最后就构成了样本的全部特征值。

为方便起见,我这里只选择Versicolor、Virginica这两种鸢尾花的两个特征,画了一个散点图,在这事例中,使用一条直线作为分界线,就大致把两种花区分开了,这就是一个最简单的分类任务。在数据集中,每一个样本被称作一个实例,通常由特征向量表示。数据集中的样本用空间中的一个点表示,数据集中有几个特征,就使用几维度的空间,此空间为特征空间。分类任务的本质就是在特征空间切分,在高维空间同理。

​​​​​​​特征有时候可能很抽象,比如在MINST数据集中,每一个手写数字都是一个28*28的图像,每一个图像就是一个样本,每个像素点都是一个特征,每个样本有28*28=784个特征,为了描述一个图像,就可以使用784个数据,每个数就代表从左上角到右下角的像素点对应的灰度值深浅,如果是彩色图像,特征会更多。

  • 10
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值