机器学习笔记入门（一）

最新推荐文章于 2022-10-28 10:16:11 发布

Pizza_Lawson

最新推荐文章于 2022-10-28 10:16:11 发布

阅读量270

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/Pizza_Lawson/article/details/90263300

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

我没有机器学习方面的基础，基本上是零基础，所以得一步一步的学习。

基本术语

首先针对所谓的机器学习的理解，以100个关于西瓜的数据为例，很形象的来解释一些关键术语的意思。

数据集：100个西瓜的这些数据称为数据集

样本：100个西瓜中的每一个西瓜称为样本

属性或特征：100个西瓜中的单独一个西瓜的颜色，大小，敲击的声音等等称为这个西瓜的属性或特征

属性值：一个西瓜的颜色是青色，那么这个西瓜的颜色这个属性的值就是青色。青色就是属性值。

属性空间：如果一个西瓜有三个属性值，颜色、大小和敲击声，那么以这三个属性作为坐标轴xyz，形成了一个三维的空间，这个空间就是西瓜的属性空间

特征向量：属性空间里的一个点有三个坐标，肯定对应一个坐标向量，那么这个点就是特征向量

维数：西瓜的属性个数

学习或训练：从数据中学得模型的过程

训练数据：训练过程使用的数据称为训练数据

训练样本：其中每个样本称为训练样本

训练集：训练样本的集合称为训练集

假设：希望通过训练能得到的关于数据的某种潜在规律称为假设

真相：真正的规律，学习或训练的目的就是为了找出或逼近真相

如果希望得到一个帮助我们判断没剖开的西瓜是不是好瓜的模型，仅仅有前面的100个西瓜的数据是不够的，要建立这样的模型，还需要训练。换句话说，必须要把很多西瓜剖开看是不是好瓜，然后收集形成一条条的记录，比如（青色，大，敲击浑浊的西瓜：好瓜），（白色，大，敲击浑浊的西瓜：好瓜）

标记：上面的“好瓜”或“坏瓜”
标记空间：我们要的可能不止“好瓜”或“坏瓜”，可能还有“中等瓜”，“中等偏上的瓜”等等，这些标记的集合就是标记空间
分类：如果我们要求测的是离散的，比如“好瓜”或“坏瓜”，这类学习任务称为分类
回归：如果我们要求测的是连续的，比如西瓜的成熟度0.95,0.37，这类学习任务称为回归
二分类：即只有两个类别，“好瓜”或“坏瓜”，一般称其中一个为正类，另一个为反类
多分类：即有多个类别

在学得模型之后，使用模型进行预测，其过程称为测试，被预测的样本称为测试样本。比如学得模型后，拿到（青色，大，敲击浑浊的西瓜）这个测试样本，然后根据这个模型进行计算，最终会得到这个样本的标记，也就是“好瓜”或“坏瓜”。

上面介绍了分类，接下来介绍聚类。