西瓜书学习笔记1——通俗解释基本术语（机器学习、数据集、特征值、分类、回归、监督学习、半监督学习、泛化）

最新推荐文章于 2023-07-31 10:37:36 发布

熠regina

最新推荐文章于 2023-07-31 10:37:36 发布

阅读量523

点赞数 1

分类专栏：西瓜书学习笔记文章标签：学习分类回归机器学习

本文链接：https://blog.csdn.net/m0_68420822/article/details/125362447

版权

西瓜书学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本人是跨专业考研计算机，是纯小白，从机器学习--周志华（俗称西瓜书）开始学习，记录学习笔记，目的是记录学习的内容，让和我一样的小白能够快速的学习本书中的知识，如果有大佬看到可以多提提意见，一起学习交流，共同进步。

机器学习（machine learning）：可以说机器学习是研究关于“学习算法”的学问，即：利用“数据集”来研究数据中的潜在规律，通过这些规律，来应用到其他的数据上，能够接近或者逼近真相，就像是通过生活经验，利用西瓜的一些外在特征，就可以判断出这个西瓜是“好瓜”，还是“坏瓜”。

数据集（data set）：是关于一个事件或对象的描述，称为“示例”（instance）或“样本”（sample），比如我们收集到了一批西瓜的数据，（色泽=青绿；根蒂=硬挺；敲声=浊响），（色泽=乌黑；根蒂=稍蜷；敲声=沉闷），（色泽=浅白；根蒂=硬挺；敲声=清脆）……，每对括号里是一个记录，这组记录的集合就是数据集。其中“=”意思是“取之为”。

注：“色泽”、“根蒂”、“敲声”，称为“属性”（attribute）或“特征”（feature）

“青绿”，“乌黑”，称为“属性值”（attribute value）或“特征值”（feature value）

特征向量（feature vector）：例如我们把“色泽”，“根蒂”，“敲声”作为三个坐标轴，则他们张成一个用于描述西瓜的三维空间，每个西瓜都可以在这个空间中找到自己的坐标位置，由于空间中的每个点对应一个坐标向量，因此也把一个示例或数据称为一个“特征向量”。

数据集分为“训练集”（training data）和“测试集”（testing data）

训练集：训练的过程使用的数据集。

测试集：进行测试使用的数据集。

一般地，预测任务是希望通过对训练集进行学习，建立一个从输入空间X到输出空间Y的映射：f：X➡️Y，在学到f后，对测试集进行测试，看这个模型训练的精度能够达到多少。

标记（label）：有些人称为“标签”，因为我们为了判断一个没剥开的西瓜是不是好瓜，仅通过前面示例给到的数据是不够的，所以我们要建立“预测”（prediction），也就是训练样本得到的“结果”信息，比如“（（色泽=青绿；根蒂=硬挺；敲声=浊响），好瓜）”，这里关于示例结果的信息，“好瓜”，称为“标记”/“标签”。

分类（classification）：如果我们想要预测的是离散值，比如“好瓜”、“坏瓜”，此类学习任务称为“分类”。

“二分类”（binary classification）任务：只涉及到两个类别，就是这里所说的“好瓜”或“坏瓜”，通常称其中一个类为“正类”（positive class），另一个类为“反类”（negative class）。

“多分类”（multi- class classification）任务：涉及到多个类别。

回归（regression）：如果我们想预测的是连续值，比如西瓜成熟度0.95、0.37，此类学习任务称为“回归”。

聚类（clustering）：将训练集中的西瓜分为若干个组，每组称为一个“簇”，这些自动形成的簇可能对应一些潜在的概念划分，例如“浅色瓜”，“深色瓜”，这样学习有助于了解数据内在规律，能为更深入分析数据建立基础，在聚类学习中，“浅色瓜”，“深色瓜”这些概念我们事先不知道，在学习的过程中通常不拥有标记信息，不断的学习，将“浅色瓜”学习的过程中聚集在一类。

根据训练数据是否拥有标记信息，学习任务大致分为两类：监督学习和无监督学习。有些教程可能还有半监督学习

监督学习（supervised learning）：分类和回归属于监督学习

无监督学习（unsupervised learning）：聚类属于无监督学习

泛化（generalization）：因为机器学习的目标是使模型能够适用于新的样本，不仅仅在训练集上工作的很好，这种能力称为泛化能力