绪论
首要问题: 什么是机器学习?
- 从人的学习经验来看,我们能够总结日常生活经验,从而对新面临的情况做出决策。搬移到机器的层面,所谓经验是以数据的形式存在,因此我们需要从数据获得一定的模型,这中间的学习过程,正是机器学习发挥作用的地方,它类似与人的学习,这也正是其名字的由来。
抽象地讲,从数据到模型的中间需要学习算法(关于如何学习的算法)。因此从这个层面来看,机器学习可以说是关于学习算法的学问。
机器学习的一些基本术语
-
样本空间 χ \chi χ和假设空间 H H H
科学推理的两大基本手段:演绎(deduction)与归纳(induction)。演绎是从一系列假设的公理出发,以逻辑推理的方式演绎出更为丰富的定理体系;与此相反的,归纳是从指从样例中学习,即从大量已知的具体事实归纳出一般性的原则,这就是归纳学习(inductive learning)。
机器学习属于归纳学习,但其更为具体:从数据中归纳出概念(concept)。
对数据的思考要时常把握住样本空间(sample space)的概念,即我们认为存在一个样本空间,其有某种未知的分布(Distribution),而数据集(dataSet) 里面的每一个样本,是独立地从该分布D中抽样得到的(独立同分布i.i.d.),注意这是一个重要的基础性假设,从这个角度来看,数据集越大越充分。
对概念的思考要时常把握住假设空间(Hypothesis Space),即在假设空间中有很多可能的概念,机器学习的目的在于搜索到一个与数据集匹配的概念。 -
泛化能力与归纳偏好
泛化能力(generalization),指的是学得的模型对样本空间除训练集以外的部分的适应能力,一般我们期望学习到的模型具有强泛化能力。
归纳偏好(inductive bias),指的是模型在版本空间(version space) 的偏好选择。 -
数据术语
数据集(data set): 记录的集合,每条记录是关于一个事件和一个对象的描述;
样本(sample)或示例(instance): 一条记录;
属性(attribute): 描述对象或事件在某方面的表现或性质的事项, 其上取值为属性值(attribute space);由属性张成的空间称为属性空间、样本空间,因此每一个样本或示例实际上可以认为是样本空间上的一个特征向量(feature vector)。 -
假设与真相
根据假设空间的概念,我们最终根据学习算法在假设空间中搜到确定了一个假设(hypothesis),它实际上对应了样本空间中某种潜在的规律,这种潜在规律称为真相或真实(ground-truth)。 -
标记空间 γ \gamma γ
一个示例或样本的结果信息,称为标记(label),,标记值的所有可能取值称为标记空间(label space),一个拥有了标记的示例或样本,称为样例(example)。 -
监督学习与无监督学习(supervised learning and unsupervised learning)
根据训练数据(training data) 是有拥有标记信息,可以将学习任务分为两类:监督学习与无监督学习。其中分类和回归是监督学习的代表,聚类则是后者的代表。
两个有名的原则——奥卡姆剃刀(Occam’s razor)、没有免费的午餐NFL(No Free Lunch Theorem)
- 奥卡姆剃刀(Occam’s razor):一种常用的、自然科学研究中最基本的原则,即在多个合格的备选假设中,选择最简单的那个。归结起来为,简单即美。其中简单的具体含义并不平凡,应结合具体的情境。
- 没有免费的午餐NFL(No Free Lunch Theorem):脱离具体的问题背景,想给出一个一劳永逸的原则,来决策“什么学习算法更好”,这是不可能的,因为已经证明,如果以所有潜在的问题为一个整体,那么所有学习算法都是一样好的。因此,谈论一个学习算法的优劣,应该要基于当前这个具体的学习问题,这是一个重要的定理。因为数学往往是在摆脱一些无关紧要的具体情况,以达到抽象出一般性原则的目的,但是NFL告诉我们,学习算法的选择在理论上就必须要考虑具体的学习问题(通:具体问题,具体分析)。因此,学习算法自身的归纳偏好与具体问题是否能够相配,往往对其泛化能力起到决定性的作用。
人工智能的发展历程
- 推理期
- 知识期
- 学习期
机器学习是人工智能发展到一定阶段的必然产物。进入学习期后,机器学习主要经历了几个阶段:- 符号主义学习
- 连接主义学习
- 统计学习
机器学习学科的意义
- 实现人工智能的一种途径;
- 建立一些关于学习的计算模型来促进我们理解“人类如何学习”;
- …
本系列笔记的参考资料
- 周志华《机器学习》
- 吴恩达 cs229
- 其他