基本术语
对于机器学习,首先需要数据。
例如上图为德国信用数据集(German Credit Dataset)的一部分,其中每个个体或者对象称为样本(Sample)。
而反映样本在某方面的表现或者性质的事项,称为属性(Attribute) 或 特征(Feature)。例如上图中的年龄、性别、职业等。
对于具体的样本,其对应于某一属性或者特征上所具有的属性,称为属性值(Attribute value)。例如第二行中性别为“male”。
这些属性张成的空间称为属性空间(Attribute space) 或者样本空间 (Sample space) ,而每一个个体由所含有的特征可表示为一个“特征向量(feature vector)”。如果每个样本由d个属性或者特征所表征,那么该样本
x
i
x_i
xi的维数(dimensionality)为d。
从数据中学到模型的过程称为“学习(learning)”或“训练(training)”,整个过程通常选择某个特定的算法完成。训练过程所使用的样本称为“训练数据(training data)”,其中的每一个样本称为训练样本(training sample),这些训练样本共同组成了训练集(training set)。
学得模型对应了关于数据的某种潜在的规律,称之为“假设(hypothesis)”。这种潜在规律自身称为“真相(ground-truth)”。
对于示例结果的信息,例如对于GC数据集中,个体是否违约这种示例结果的信息,称为“标记(label)”。而这些拥有标记信息的示例,则称为“样例(example)”。由标记所构成的空间,即所有标记的集合也称为“标记空间(label space)”。
如果预测的结果是离散的值,那么此类学习任务称为“分类(classification)”;如果预测的结果是连续值,那么此类学习任务称为“回归(regression)”。
预测结果:
{
离散值
⇒
分类
连续值
⇒
回归
预测结果: \left\{\begin{matrix} 离散值 \Rightarrow 分类\\ 连续值 \Rightarrow 回归 \end{matrix}\right.
预测结果:{离散值⇒分类连续值⇒回归
对于分类问题,根据分类的类别数目,可以将其分为“二分类(binary classification)任务”和“多分类任务(multi-class classification)”。对于二分类问题,通常称其中一个为“正类(positive class)”,一个类为“反类(negative class)”。例如GC数据集中违约可以称为正类,也可以称为反类。
1. 二分类问题是机器学习中的基本问题。
2. 多分类问题可以分解为多个二分类问题。
根据训练数据是否拥有标记信息,学习任务可以分为“有监督学习(supervised learning)”和“无监督学习(unsupervised learning)”。分类和回归是前者的代表,聚类是后者的代表。
学得模型适用于新样本的能力称为泛化(generalization)能力。具有强泛化能力的模型能够很好适用于整个样本空间 χ \chi χ。
通常假设样本空间中全体样本服从一个未知的分布(distribution) D \mathcal{D} D,并假设这些样本都是**独立同分布(independent and identically)**的。