AI学习笔记（1）——基本术语和相关解释

本文链接：https://blog.csdn.net/qq_28274315/article/details/79297251

1. 数据集(data set)：整个数据的集合。
2. 示例(instance)或样本(sample)：数据集中的每条记录，有时也用来代指整个数据集。
3. 属性(attribute)或特征(feature)：如“色泽”、“根蒂”、“敲声”。
4. 属性值(attribute value)：如“浅白”、“硬挺”、“清脆”。
5. 属性空间(attribute space)、样本空间(sample space)或输入空间：属性张成的空间（作为坐标轴）。
6. 特征向量(feature vector)：每个示例在属性空间中的表示。
7. 维数(dimensionality)：属性的个数。
8. 学习(learning)或训练(training)：从数据中学得模型的过程。
9. 训练数据(training data)：训练过程中使用的数据。
10. 训练样本(training sample)：训练数据中的每一个样本。
11. 训练集(training set)：训练样本组成的集合。（那和训练数据有什么区别呢？）
12. 假设(hypothesis)：即模型，因为其也对应了关于数据的某种潜在的规律。
13. 真相或真实(ground-truth)：这种潜在的规律自身。
14. 学习器(learner)：模型的另一种叫法，可看做学习算法在给定数据和参数空间上的实例化。
15. 标记(label)：关于示例结果的信息，例如“好瓜”。
16. 样例(example)：拥有标记信息的示例。（若将标记看做对象本身的一部分，则有时也称为样本）
17. 标记空间(label space)或 输出空间：所有标记的集合。
18. 分类(classification)：以划分类别为目的的学习任务，即欲预测的是离散值。
19. 回归(regression)：以求值为目的的学习任务，即欲预测的是连续值。
20. 二分类(binary classification)：只涉及两个类别的分类学习任务。
21. 正类(positive class)和反类(negative class)或负类：二分类任务中的两个类别。
22. 多分类(multi-class classification)：涉及多个类别的分类任务。
23. 测试(testing)：学得模型后，使用其进行预测的过程。
24. 测试样本(testing sample)或 测试示例(testing instance)或示例：被预测的样本。
25. 聚类(clustering)：将训练集中的样本分为若干组。
26. 簇(cluster)：聚类分成的每一组。否则标记信息直接形成了簇划分。
27. 监督学习(supervised learning)或 有导师学习：主要代表为分类和回归。
29. 无监督学习(unsupervised learning)或 无导师学习：主要代表是聚类。
30. 未见示例(unseen instance)：没有在训练集中出现的样本。
31. 泛化(generalization)：学得模型适用于新样本的能力。
32. 分布(distribution)和 独立同分布(independent and identically distributed，简称i.i.d）