第1章 绪论

目录

基本术语:

独立同分布:

假设空间:

归纳与演绎:

假设空间:

归纳偏好:

奥卡姆剃刀:

没有免费的午餐NFL:

发展历程:

应用现状:

阅读材料:

假设选择原则:

机器学习领域重要的期刊|会议:


基本术语:

独立同分布:

统计机器学习算法都是基于样本数据独立同分布的假设。但是注意自然界现象千变万化,并没有那么多的独立同分布现象。

通常假设样本空间中全体样本服从一个未知“分布”,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”。

假设空间:

归纳与演绎:

归纳(induction)与演绎(deduction)是科学推理的两大基本手段,前者是从特殊到一般的“泛化”(generalization)过程,即从具体的事实归结出一般性规律;后者则是从一般到特殊的“特化”(specialization)过程,即从基础原理推演出具体状况.例如,在数学公理系统中,基于一组公理和推理规则推导出与之相洽的定理,这是演绎;而“从样例中学习”显然是一个归纳的过程,因此亦称“归纳学习”(inductive learning).

归纳学习有狭义与广义之分,广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念(concept),因此亦称为“概念学习”或“概念形成”.

概念学习技术目前研究、应用都比较少,因为要学得泛化性能好且语义明确的概念实在太困难了,现实常用的技术大多是产生“黑箱”模型,然而,对概念学习有所了解,有助于理解机器学习的一些基础思想.

假设空间:

概念学习中最基本的是布尔概念学习,即对“是”“不是”这样的可表示为0/1布尔值的目标概念的学习,举一个简单的例子,假定我们获得了这样一个训练数据集:

这里要学习的目标是“好瓜”,暂且假设“好瓜”可由“色泽”“根蒂”“敲声”这三个因素完全确定,换言之,只要某个瓜的这三个属性取值明确了,我们就能判断出它是不是好瓜,于是,我们学得的将是“好瓜是某种色泽、某种根蒂、某种敲声的瓜”这样的概念,用布尔表达式写出来则是“好瓜-(色泽=?)八(根蒂=?)A(敲声=?)”,这里“?”表示尚未确定的取值,而我们的任务就是通过对表1,1的训练集进行学习,把“?”确定下来. 

?确定的过程中就衍生出了假设空间

归纳偏好:

通过学习得到的模型对应了假设空间中的一个假设.于是,图1.2的西瓜版本空间给我们带来一个麻烦:现在有三个与训练集一致的假设,但与它们对应的模型在面临新样本的时候,却会产生不同的输出.例如,对(色泽=青绿;根蒂=蜷缩;敲声=沉闷)这个新收来的瓜,如果我们采用的是“好瓜(色泽=*)A(根蒂=黍缩)A(敲声=*)”,那么将会把新瓜判断为好瓜,而如果采用了另外两个假设,则判断的结果将不是好瓜.那么,应该采用哪一个模型(或假设)呢?

若仅有表1.1中的训练样本,则无法断定上述三个假设中哪一个“更好”然而,对于一个具体的学习算法而言,它必须要产生一个模型.这时,学习算法本身的“偏好”就会起到关键的作用.例如,若我们的算法喜欢“尽可能特殊”的模型,则它会选择“好瓜→(色泽= *)A(根蒂=蜷缩)予(敲声=浊响)”;但若我们的算法喜欢“尽可能一般”的模型,并且由于某种原因它更“相信”根蒂,则它会选择“好瓜→(色泽=*)A(根蒂=蜷缩)N(敲声=*)”,机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”(inductive bias),或简称为“偏好”

任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果.可以想象,如果没有偏好,我们的西瓜学习算法产生的模型每次在进行预测时随机抽选训练集上的等效假设,那么对这个新瓜“(色泽=青绿;根蒂=蜷缩;敲声=沉闷)”,学得模型时而告诉我们它是好的、时而告诉我们它是不好的,这样的学习结果显然没有意义.

由上图可以发现曲线B相比于曲线A更复杂一点,而曲线A相比于曲线B更倾向于“相似的样本应该有相似的输出”,A的泛化能力会更强一些。

归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”,那么,有没有一般性的原则来引导算法确立“正确的”偏好呢?

奥卡姆剃刀:

奥卡姆剃刀”(Occam's razor)是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”。如果采用这个原则,并且假设我们认为“更平滑”意味着“更简单”(例如曲线A更易于描述 ,而曲线B则要复杂得多),则在图1.3中我们会自然地偏好“平滑”的曲线A.

然而,奥卡姆剃刀并非唯一可行的原则.退一步说,即便假定我们是奥卡姆剃刀的铁杆拥趸,也需注意到,奥卡姆剃刀本身存在不同的诠释,使用奥卡姆剃刀原则并不平凡.例如对我们已经很熟悉的西瓜问题来说,“假设1:好瓜→(色泽=*)八(根蒂=蜷缩)八(敲声=浊响)”和假设2:“好瓜→(色泽=*)A(根蒂=蜷缩)A(敲声=*)”这两个假设,哪一个更“简单”呢?这个问题并不简单,需借助其他机制才能解决.

事实上,归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设.在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能.

没有免费的午餐NFL:

在上文我们说A的泛化性强于B,但这样子是有个条件的。请观察下图:

如果大多数样本是按照作图这样子简单分布的,那么毫无疑问A泛化能力优于B;如果像右图这样较为复杂分布,那么A的泛化能力反而不如B。

虽然我们希望并相信A比B更好,但会不会出现图1.4(b)的情况:与A相比,B与训练集外的样本更一致?
很遗憾,这种情况完全可能出现.

换言之,对于一个学习算法A,若它在某些问题上比学习算法B好,则必然存在另一些问题,在那里B比A好.有趣的是,这个结论对任何算法均成立,哪怕是把本书后面将要介绍的一些聪明算法作为A。而将“随机胡猜”这样的笨拙算法作为B.惊讶吗?

但是这个结论确实是成立的,证明略。

了解了上述的结论后,你可能会觉得既然所有学习算法的期望性能都跟随机胡猜差不多,那还有什么好学的?

我们需注意到, NFL定理有一个重要前提:所有“问题”出现的机会相同、或所有问题同等重要,但实际情形并不是这样,很多时候,我们只关注自己正在试图解决的问题(例如某个具体应用任务),希望为它找到一个解决方案,至于这个解决方案在别的问题、甚至在相似的问题上是否为好方案,我们并不关心,例如,为了快速从A地到达B地,如果我们正在考虑的A地是南京鼓楼、B地是南京新街口,那么“骑自行车”是很好的解决方案;这个方案对A地是南京鼓楼、B地是北京新街口的情形显然很糟糕,但我们对此并不关心.

事实上,上面 NFL定理的简短论述过程中假设了f的均匀分布,而实际情形并非如此.例如,回到我们熟悉的西瓜问题,考虑{假设1:好瓜→(色泽= *)(根蒂=蜷缩)A(敲声=浊响)}和{假设2:好瓜→(色泽= *)A(根蒂=硬挺)入(敲声=清脆)}.从NFL定理可知,这两个假设同样好.我们立即会想到符合条件的例子,对好瓜(色泽=青绿;根蒂=蜷缩;敲声=浊响)是假设1更好,而对好瓜(色泽=乌黑;根蒂=硬挺;敲声=清脆)则是假设2更好.看上去的确是这样.然而需注意到,“(根蒂=蜷缩;敲声=浊响)”的好瓜很常见,而“(根蒂=硬挺;敲声=清脆)”的好瓜罕见,甚至不存在。

所以, NFL定理最重要的寓意,是让我们清楚地认识到,脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义,因为若考虑所有潜在的问题,则所有学习算法都一样好.要谈论算法的相对优劣,必须要针对具体的学习问题;在某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用.

发展历程:

第一阶段:赋予机器逻辑推理能力;

第二阶段:必须设法使机器拥有知识,大量专家系统问世;

第三阶段:让机器自己能够学习知识,“从样例中学习”成为主流。

  1. 符号主义;(以决策树为代表)
  2. 基于神经网络的连接主义;
  3. 统计学习;(以支持向量机SVM为代表)

自“从样例中学习”成为主流后,机器学习的发展历程为:符号主义兴起->连接主义兴起、符号主义衰败->统计学习兴起、连接主义衰败->深度学习兴起(本质是连接主义)、统计学习被深度学习所打压。

应用现状:

传统的应用这里不再赘述。

有趣的是从SDM模型(机器学习算法)中获得了脑部研究的一些启示。

值得一提的是,机器学习备受瞩目当然是由于它已成为智能数据分析技术的创新源泉,但机器学习研究还有另一个不可忽视的意义,即通过建立一些关于学习的计算模型来促进我们理解“人类如何学习”,例如, P. Kanerva在二十世纪八十年代中期提出 SDM (Sparse Distributed Memory)模型[Kanerva,1988]时并没有刻意模仿脑生理结构,但后来神经科学的研究发现,SDM 的稀疏编码机制在视觉、听觉、嗅觉功能的脑皮层中广泛存在,从而为理解脑的某些功能提供了一定的启发.自然科学研究的驱动力归结起来无外是人类对宇宙本源、万物本质、生命本性、自我本识的好奇,而“人类如何学习”无疑是一个有关自我本识的重大问题.从这个意义上说,机器学习不仅在信息科学中占有重要地位,还具有一定的自然科学探索色彩,

阅读材料:

假设选择原则:

奥卡姆剃刀原则主张选择与经验观察一致的最简单假设,它在自然科学如物理学、天文学等领域中是一个广为沿用的基础性原则,例如哥白尼坚持“日心说”的理由之一就是它比托勒密的“地心说”更简单且符合天文观测.奥卡姆剃刀在机器学习领域也有很多追随者 [Blumer et al.,1996].但机器学习中什么是“更简单的”这个问题一直困扰着研究者们,因此,对奥卡姆剃刀在机器学习领域的作用一直存在着争议[Webb,1996; Domingos,1999].需注意的是,奥卡姆剃刀并非科学研究中唯一可行的假设选择原则,例如古希腊哲学家伊壁鸠鲁(公元前341年-前270年)提出的“多释原则”(principle of multipleexplanations),主张保留与经验观察一致的所有假设[Asmis, 1984],这与集成学习(ensemble learning)方面的研究更加吻合.

机器学习领域重要的期刊|会议:

机器学习领域最重要的国际学术会议是国际机器学习会议(ICML)、国际神经信息处理系统会议(NIPS)和国际学习理论会议(COLT),重要的区域性会议主要有欧洲机器学习会议(ECML)和亚洲机器学习会议(ACML);最重要的国际学术期刊是 Journal of Machine Learning Research和 Machine Learning.

人工智能领域的重要会议如 IJCAI、AAAI 以及重要期刊如 Artificial Intelli-gence、Journal of Artificial Intelligence Research,数据挖掘领域的重要会议如KDD、ICDM以及重要期刊如ACM Transactions on Knouledge Discoueryfrom Data、Data Mining and Knowuledge Discoverg。

计算机视觉与模式识别领域的重要会议如 CVPR以及重要期刊如IEEE Transactions on PatternAnalysis and Machine Intelligence。

神经网络领域的重要期刊如 Neural Com-putation、IEEE Transactions on Neural Netuorks and Learning Systems等也经常发表机器学习方面的论文.

此外,统计学领域的重要期刊如 Annals of Statistics等也常有关于统计学习方面的理论文章发表.

国内机器学习领域最主要的活动是两年一次的中国机器学习大会(CCML)以及每年举行的“机器学习及其应用”研讨会(MLA);很多学术刊物都经常刊登有关机器学习的论文.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值