1. 概述
“朝霞不出门,晚霞行千里”
日常生活中,我们积累了许多经验,通过对经验的利用,就能对新情况做出有效决策。
机器学习:致力于研究如何通过计算的手段,利用经验来改善系统自身性能。计算机系统中,经验以数据形式存在。
ML研究的主要内容:关于在计算机上从数据中产生模型的算法。有了学习算法,把经验数据提供给它,就能基于这些数据产生模型。面对新情况,模型会提供相应判断。
2. 基本术语
数据集,样本/示例,属性/特征,属性值/特征值
属性空间/特征空间/输入空间
特征向量:空间中的点,对应一个样本
学习/训练:从数据中学得模型的过程,执行某个学习算法
训练数据,训练样本,训练集
分类任务:预测的离散值
回归任务:预测的是连续值
二分类,多分类
学习任务分类:监督学习,无监督学习。根据训练数据是否拥有标记信息来区分。前者如分类、回归任务;后者如聚类任务。
泛化能力:学得的模型适用于新样本的能力。
独立同分布:通常假设样本空间中的全体样本服从一个未知分布,我们获得的每个样本都是独立地从这个分布中采样获得的。
3. 假设空间
机械学习,亦称死记硬背式学习,“记住”所有训练样本。
我们可将学习过程看作一个在所有假设组成的空间中,进行搜索的过程。搜索目标是找到与训练集匹配的假设,能够将训练集中的瓜判断争取的假设。
假设的表示一旦确定,假设空间及其规模确定。如假设空间由形如“(色泽=? )&& (根蒂=?)&&(敲声=?)”的可能取值所形成的假设组成。
对该假设空间进行搜索,不断删除与正例不一致的假设,或与反例一致的假设,最终得到与训练集一致的假设,即为学习结果。
现实中经常面临很大的假设空间。学习过程是在有限样本训练集进行的,因此,可能有多个假设与训练集一致,存在着一个与训练集一致的“假设集合”,称为“版本空间”。
样本集:
版本空间(3个假设):
4. 归纳偏好
科学推理2大手段:归纳(induction)和演绎(deduction)。
归纳:从特殊到一般的泛化过程。演绎:从一般到特殊的特化过程。
从样例中学习,是一个归纳的过程,亦称归纳学习。
如上节,有三个假设,学习算法本身的偏好,会在生成模型时起到关键作用。例如算法喜欢尽可能特殊,即适应情况尽可能少的情况,则会选(色泽=*,根蒂=紧缩,敲声=浊响);而算法若喜欢尽可能一般,即适应情况尽可能多的情况,并且由于某种原因更相信根蒂,则选择(色泽=*, 根蒂=蜷缩,敲声=*)。
机器学习算法在学习过程中,对某种类型假设的偏好,称为“归纳偏好”。
这看起来和特征选择有点像,但不是一回事。特征选择是基于对训练样本的分析进行的。此处的例如对“根蒂”的信赖,并非基于特征选择,而可视为基于某种领域知识而产生的归纳偏好。
任何一个有效的ML算法,必有其归纳偏好。否则模型不确定。
学习算法的某种偏好,体现在其设计流程,优化目标等综合反映。如算法认为相似样本应用相似输出,则对应的学习算法可能偏好下图较平滑的曲线。
归纳偏好可看作是:学习算法自身在一个很庞大的假设空间中对假设选择时的启发式或价值观。即有自己的某种个性,或者癖好来做出一个选择。
一个一般性的原则,引导算法确定“正确性”偏好:奥卡姆剃刀原则。即若有多个假设与观察一致,则选最简单的那个。
但是这只是某一方面的准则。对于一个算法A,若在某些问题上比B好,则必然存在另一些问题,在那里B比A好。
P8的简单证明:算法A在训练集之外的所有样本上的误差,与算法无关。这就是说对于任意两个算法,其训练集外误差都是相同的。对于一个算法A,若在某些问题上比B好,则必然存在另一些问题,在那里B比A好。
这就是“没有免费的午餐”定理(NFL)。
那既然所有学习算法的期望性能和随即猜测差不多,ML的意义何在?
NFL定理的前提是:所有问题出现机会相同。但实际中不是这样,我们只关注某个具体应用任务,希望这个正在试图解决的问题,找到一个方案。至于在别的问题上如何,并不关心。对当前最好即可。
NFL定理意义在于:脱离具体问题,空泛谈论什么学习算法更好,是没有意义的。必须针对具体问题具体分析。
5. 发展历程
二十世纪五十年代开始。
二十世纪八十年代,从样例中学习的一大主流是符号主义学习,代表包括决策树等。
二十世纪九十年代中期之前,从样例中学习的另一大主流是基于神经网络的连接主义学习。BP算法1986年出现。
二十世纪九十年代中期,统计学习迅速占领舞台。代表有SVM。以统计学习理论为直接支撑的统计学习技术。
如今,连接主义学习卷土重来,掀起了以深度学习为名的热潮。模型复杂度虽高,但只要下功夫调参,性能往往会好。但缺乏严格的理论基础。
热起来有两个原因:
- 数据大。深度学习模型拥有大量参数,若样本少,容易过拟合。
- 计算能力强。数据储量和GPU大发展。
上世纪80年代走红,与当时的X86系列微处理器和内存条技术显著提高不无关系,历史在重演。
想起操作系统书的作者曾说过:计算机界很有趣,往往很多东西被淘汰了但若干年后又将焕发新生。
6. 应用现状
2012年,美国政府启动大数据研发计划,强调三大技术:
- 机器学习:提供数据分析能力
- 云计算:提供数据处理能力
- 众包:提供数据标注能力
数据挖掘,20世纪90年代出现。其两大支撑;
- 机器学习技术
- 数据库技术