1.1 引言
-
机器学习:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
-
研究内容: 在计算机上从数据产生“模型”的算法,即“学习算法”。“模型”泛指从数据中学得的结果。
1.2 相关术语
-
数据集(data set): 数据的集合。
-
样本(sample)/ 示例(instance):每条记录是关于一个事件或对象的描述。
-
属性(attribute)/ 特征(feature):事件或对象在某方面的表现或性质。属性的取值叫做属性值(attribute value),属性张成的空间叫做属性空间(attribute space)、样本空间(sample space)或输入空间。
-
特征向量(feature vector):示例的别名。
-
学习(learning)/ 训练(training): 从数据中学得模型的过程。
-
训练过程中使用的数据称为“训练数据”(training data),其中每个样本称为一个“训练样本”(training sample),训练样本组成的集合称为“训练集”*(training set)。
-
假设(hypothesis):学得模型对应了关于数据的某种潜在的规律,这种潜在规律自身,称为“真相”或“真实”(ground-truth)。
-
标记(lable): 训练样本的结果的信息。
-
样例(example): 拥有了标记信息的示例。
一般用(xi, yi
)表示第i
个样例,yi
表示示例xi
的标记 -
分类(classification): 预测的是离散值
-
回归(regression):预测的是连续值。
-
聚类(clustering):将训练集分成若干组,每组称为一个簇(cluster)。这样的学习过程有助于我们了解数据内在的规律,能为更深入地分析数据建立基础。在聚类学习中,这些簇我们事先是不知道的。
-
监督学习(supervised learning):代表有分类和回归。
-
无监督学习(unsupervised learning): 代表是聚类学习。
-
泛化(generalization)能力: 学得的模型适用于新样本的能力。
-
独立同分布(independent and identically distributed,简称 i.i.d.):通常假设样本空间中全部样本服从一个未知分布(distribution)D,我们获得的每个样本都是独立地从这个分布上采样获得的,即独立同分布。一般而言,训练的样本越多,我们得到的关于D的信息越多,就越有可能用过学习获得泛化能力强的模型。
(2018年11月19日21:06:09)