机器学习——基本术语

最新推荐文章于 2024-09-14 19:18:15 发布

以观Los

最新推荐文章于 2024-09-14 19:18:15 发布

阅读量685

点赞数 26

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/eral_/article/details/140420619

版权

基本术语

对于机器学习，首先需要数据。

![[Pasted image 20240714172953.png]]

例如上图为德国信用数据集(German Credit Dataset)的一部分，其中每个个体或者对象称为样本(Sample)。
而反映样本在某方面的表现或者性质的事项，称为属性(Attribute) 或 特征(Feature)。例如上图中的年龄、性别、职业等。
对于具体的样本，其对应于某一属性或者特征上所具有的属性，称为属性值(Attribute value)。例如第二行中性别为“male”。
这些属性张成的空间称为属性空间(Attribute space) 或者样本空间 (Sample space) ，而每一个个体由所含有的特征可表示为一个“特征向量(feature vector)”。如果每个样本由d个属性或者特征所表征，那么该样本 $x_i$ 的维数(dimensionality)为d。

从数据中学到模型的过程称为“学习(learning)”或“训练(training)”，整个过程通常选择某个特定的算法完成。训练过程所使用的样本称为“训练数据(training data)”，其中的每一个样本称为训练样本(training sample)，这些训练样本共同组成了训练集(training set)。

学得模型对应了关于数据的某种潜在的规律，称之为“假设(hypothesis)”。这种潜在规律自身称为“真相(ground-truth)”。

对于示例结果的信息，例如对于GC数据集中，个体是否违约这种示例结果的信息，称为“标记(label)”。而这些拥有标记信息的示例，则称为“样例(example)”。由标记所构成的空间，即所有标记的集合也称为“标记空间(label space)”。

如果预测的结果是离散的值，那么此类学习任务称为“分类(classification)”；如果预测的结果是连续值，那么此类学习任务称为“回归(regression)”。
$\left\{\begin{matrix} 离散值 \Rightarrow 分类\\ 连续值 \Rightarrow 回归 \end{matrix}\right.$
对于分类问题，根据分类的类别数目，可以将其分为“二分类(binary classification)任务”和“多分类任务(multi-class classification)”。对于二分类问题，通常称其中一个为“正类(positive class)”，一个类为“反类(negative class)”。例如GC数据集中违约可以称为正类，也可以称为反类。
1. 二分类问题是机器学习中的基本问题。
2. 多分类问题可以分解为多个二分类问题。