机器学习基本概念

最新推荐文章于 2024-08-23 17:48:13 发布

蜗牛hb

最新推荐文章于 2024-08-23 17:48:13 发布

阅读量494

点赞数 10

分类专栏：机器学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_31841383/article/details/137624632

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.数据

机器学习首先要处理的就是大量的数据，比较经典的数据集是鸢尾花数据集。

鸢尾花数据集UCI Machine Learning Repository

每个样本有四个数据，sepal length、sepal width、petal length、petal width，这些术语的含义如图所示。鸢尾花分为三个种类Virginica、Versicolor、Setosa。

这个数据集中的数据都是比较规整的，实际的数据就未必这么完美了，会有很多极端值、缺陷值。

2.数据集

数据的整体就叫做数据集。

每一行数据称为一个样本，一朵花的数据也是一个样本，如下表所示：

除最后一列，每一列代表样本的一个特征，一般用一个矩阵 $X$ 表达这些数值，第i个样本表示为 $X^{(i)}$ ，第i个样本第j个特征值表示为 $X_{j}^{(i)}$ ，最后一列称为标记（label），第i个样本的标记写作 $y^{(i)}$ 2代表Virginica 1代表Versicolor 0代表Setosa

我们用数学向量表达这些数据，其中数学上往往用列向量表示一个向量。

每个特征向量取转置矩阵，最后就构成了样本的全部特征值。

为方便起见，我这里只选择Versicolor、Virginica这两种鸢尾花的两个特征，画了一个散点图，在这事例中，使用一条直线作为分界线，就大致把两种花区分开了，这就是一个最简单的分类任务。在数据集中，每一个样本被称作一个实例，通常由特征向量表示。数据集中的样本用空间中的一个点表示，数据集中有几个特征，就使用几维度的空间，此空间为特征空间。分类任务的本质就是在特征空间切分，在高维空间同理。

特征有时候可能很抽象，比如在MINST数据集中，每一个手写数字都是一个28*28的图像，每一个图像就是一个样本，每个像素点都是一个特征，每个样本有28*28=784个特征，为了描述一个图像，就可以使用784个数据，每个数就代表从左上角到右下角的像素点对应的灰度值深浅，如果是彩色图像，特征会更多。

蜗牛hb

关注

10
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
机器学习基本概念

机器学习首先要处理的就是大量的数据，比较经典的数据集是鸢尾花数据集。鸢尾花数据集每个样本有四个数据，sepal length、sepal width、petal length、petal width，这些术语的含义如图所示。鸢尾花分为三个种类Virginica、Versicolor、Setosa。这个数据集中的数据都是比较规整的，实际的数据就未必这么完美了，会有很多极端值、缺陷值。
复制链接

扫一扫

专栏目录