绪论
为了更早地适应研究生的生活,我决定重新学习周志华老师的机器学习这本书。同时也为了能够养成博客记录的习惯,我开始尝试着写博客记录学习中的问题。
一、什么是机器学习
机器学习是在计算机上,从数据中产生“学习算法”,然后通过该算法产生模型。基于该模型提供相应的判断的过程。
二、基本术语
- 数据集(data set) 一组数据的记录集合。
- 示例(instance)or 样本(sample) 数据集中的一个对象或者事件的描述 。
- 属性(attribute)or 特征(feature) 反映事件或对象在某方面的表现或性质。
- 属性值(attribute value) 属性上的取值。例如:头发的颜色取值黑色;头发的长度取值长发。
- 属性空间(attribute space) or 样本空间(sample space)or 输入空间 属性张成的空间。例如,将头发的“颜色”,“长度”,“是否分叉”三个属性作为三个坐标,可以张成一个用于描述头发的三维空间,每根头发都可以在该三维空间中找到自己的位置。
- 特征向量(feature vector) 属性空间中的每个点对应一个坐标向量,所以,一个坐标点所代表的示例称为一个特征向量。
- 维数(dimensionally) 特征向量的维数,这里指某一示例中的特征总数。
- 学习(learning)or 训练(training) 从数据中学得模型的过程。
- 训练数据(training data) 训练过程中使用的数据。
- 训练样本(training sample) 训练数据中的每一个样本。
- 训练集(training set) 训练样本组成的集合。
- 假设(hypothesis) 通过学习到的模型得出一种关于数据的潜在规律, 称为假设。
- 真相 or 真实(ground truth) 由假设的自身,即潜在规律自身,成为真相。
- 学习器(learner) 等同于模型,可看作学习算法在给定数据和参数空间的实列化。
- 预测(prediction) 通过预测,可以判断样本是否符合结果信息。
- 标记(label) 样本结果的信息。例如,色泽=青绿,根蒂=蜷缩是好瓜的。
- 样例(sample) 拥有标记信息的示例。
- 标记空间 or 输出空间(lable space) 标记的集合。
- 分类(classification) 算法预测离散值,例如“好人”,“坏人”。
- 回归(regression) 算法预测连续值,例如西瓜的成熟度:0.95、0.22。
- 二分类(binary classification) 只涉及两个类别的分类。
- 正类(positive class) 二分类中的正类。
- 反类(negative class) 二分类中的反类。正类的反面。
- 多分类(multi-class classification) 涉及多个类别的分类。
- 测试(testing) 学得模型后,使用该模型进行预测的过程。
- 测试样本(testing sample) 被预测的样本。
- 聚类(clustering) 一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。
- 簇(cluster) 训练集中的样本分为若干组,每一组称为一个簇。
- 监督学习(supervised learning) 训练数据有标记信息。
- 无监督学习(unsupervised learning) 训练数据无标记信息。
- 泛化(generalization) 学得的模型适用于新样本的能力。
- 分布(distribution) 假设样本空间中全体样本服从一个的一个未知的发布。一般而言,训练样本越多,我们得到的关于分布的信息就越多,这样就越有可能通过学习获得具有强泛化能力的模型。
- 独立同分布((independent and identically distributed ,简称 i.i.d.) 获得的每个样本都是独立地从这个分布上采样获得的。
三、假设空间
假设空间就是基于数据集形成的所有情况的假设集合,对每种情况根据数据集分析得到概率情况,以便后期对未知情况进行判断。
我所理解的假设空间是:特征属性的所有可能的属性值取值的集合。
我们可以把学习过程看作一个在假设组成的空间中进行搜索的过程。搜索过程中可以不断删除与正例不一致的假设、和(或)与反例一致的假设。最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,这就是我们学得的结果。
现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此有可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,我们称之为“版本空间(version space)”
版本空间概念学习中与已知数据集一致的所有假设的子集集合。即,从假设空间删除掉与正例不一致和与反例一致的假设后,剩余的假设所组成的集合。
四、归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好,称为"归纳偏好" (inductive bias) ,
或简称为"偏好"。(感觉比假设空间好理解)
任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上"等效"的假设所迷惑,而无法产生确定的学习结果。
事实上,归纳偏好对应了学习算法本身所做出的关于"什么样的模型更好"的假设。在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。
"没有免费的午餐"定理的证明:不会。
总之,具体问题要具体分析。学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用。
总结
本章简单介绍了一些基本术语,假设空间与归纳偏好。对于版本空间与没有免费午餐的证明还不熟悉。在此后还得多加努力。