西瓜书读书笔记之绪论

一个好的开始能够决定能不能继续下去。

绪论是此书的第一章节,主要通过引言,基本术语,假设空间,归纳偏好,发展历程,应用现状,阅读材料,习题等几个小节进行讲解。对于本书为什么是西瓜书,我猜测大概就是因为文中对于学习一些概念讲解使用了西瓜等样例吧。接下来我会分别按照原书的章节安排进行一些叙述,也是对自己学习的总结。最后给出学习总结。

  1. 引言
    机器学习是一门致力于研究如何通过计算的手段,利用经验来改善系统自身的性能;机器学习所研究的主要内容是关于在计算机上从数据中产生“模型”的算法,也就是学习算法。有了学习算法,将数据给算法,就能够基于数据产生模型。对于新的数据,通过模型能够得到一个关于西瓜好坏的判断。本书用“模型”泛指那些从数据中学习得到的结果。

  2. 基本术语
    数据集:收集了一些数据,每个数据类似(色泽=青绿;根蒂=蜷缩;敲声=浊响)这样的记录,一般可以用D{X1,X2,…Xm},表示m个示例构成的数据集。
    示例/样本/特征向量(feature vector):每条数据集中的记录是关于一个事件或对象的描述,将其称为特征向量是因为每个示例的属性值构成一个向量。
    属性/特征:反映事件或者对象在一些方面的表现或性质的事项。
    属性值:属性上面的取值。
    属性空间/样本空间/输入空间:属性张成的空间,可以理解是这样的,假如三个属性是三个坐标轴,于是构成一个用于描述西瓜的三维空间。
    学习/训练:通过从数据中学得“模型”的过程称为学习或者训练。这个过程通过执行某个学习算法来完成。
    训练数据:训练过程中使用的数据。
    训练样本:训练数据中的每个样本。
    训练集:训练样本组成的集合称为训练集。
    假设:学得模型对应了关于数据的某种潜在的规律。
    真相/真实:这种潜在规律自身称为真相或者真实。
    学习器/模型:学习算法在给定数据和参数空间上的实例化。
    预测模型:判断一个没破开的瓜是不是好瓜。
    标记:对于每条示例给出一个结果,比如是好瓜。
    样例:拥有了标记的示例称为样例。
    标记空间/输出空间:一般用(xi,yi)来表示第i个样例,其中yi是标记,所有标记的集合则称为标记空间或者输出空间。
    分类:想要预测的是离散值。好瓜还是坏瓜。
    回归:若预测的是连续值,例如西瓜的成熟度是0.95等,这类学习任务称为回归。
    测试:得到模型后,用于预测的过程称为测试。
    测试样本/测试示例/测试例:用于测试的样本。
    聚类:即将训练集中的西瓜分成若干组,每组称为一个簇(cluster),这些自动形成的簇可能对应一些潜在的概念划分。需要注意的是聚类的训练样本并不是拥有标记信息。
    监督学习(supervised learning):训练数据拥有标记信息。分类和回归是这一类的典型代表。
    无监督学习(unsupervised learning):训练数据不拥有标记信息。聚类是这类的典型代表。
    泛化能力:学得模型适用于新样本的能力称为泛化能力,具有强泛化能力的模型很好的适用于整个样本空间。
    独立同分布:通常假设样本空间全体样本服从一个未知分布D,每个样本都是独立同分布。

  3. 假设空间
    对于科学推理存在两种方式,归纳和演绎。归纳是特殊到一般的泛化过程,也就是从一般事务中得到规律。演绎则是用基础原理去推演一些具体情况。
    归纳学习有狭义和广义之分,可以理解的广义归纳学习相当于从样例中学习。狭义归纳学习则从训练数据中学得概念,也称为概念学习。在概念学习中最为基本的是布尔概念学习,只有两个目标概念。
    文中给出的具体描述可以理解为:一个学习过程看成是对一个假设空间的搜索,在假设空间中找到一个假设可以满足训练集中所有的要求,于是所需要的学习结果就有了。但是有时候这种假设不止一个,于是所有类似的假设构成一个“版本空间”。

  4. 归纳偏好
    其实一个假设对应一个模型,在版本空间中,对于模型做选择,选哪种呢?
    这里明确一下,“归纳偏好”有两种(书中的意思是给出两种,至于别的没说),其一:对于训练集的分析产生的特征选择,然后给出归纳偏好;其二:根据某种领域的知识积累而得出的归纳偏好。注意一个算法/模型必须有归纳偏好,通俗的讲归纳偏好也就是那种算法/模型更加适合,与解决的问题是否匹配。
    那么对于归纳偏好是否有一般性的原则呢?
    “奥卡姆剃刀”:若有多个假设与观察一致,则选择最简单的那个。但是很遗憾这个一般性原则往往并不是最合适的。
    文中给出了一个证明:(缺少NFL定理证明部分)
    给出讨论的结果也就是NFL(no free lunch theorem):在所有问题出现机会相同的情况下,无论学习算法多好,或者多么糟糕,但是他们得到的期望值却是相同的。
    尽管NFL定理十分复杂,但是给出的寓意却是比较简单:脱离具体问题,空泛的谈论“什么学习算法更好”是没有意义的。必须具体问题具体分析。

  5. 发展历程
    1950~1970,A.Newell 和H.Simon 的“逻辑理论家”程序证明了很多定理,因此获得1975年图灵奖。
    1975~1994:E.A.Feigenbaum认为机器需要具有知识才能智能,于是人工智能进入“知识期”。其中DENDRAL专家系统作为第一台专家系统有Feigenbaum在1965年完成。因此Feigenbaum作为知识之父获得1994年的图灵奖。
    1950:图灵测试文章中出现机器学习。
    1950初:机器学习出现相关研究,其中A.Samuel的跳棋程序。
    1955~1960:出现神经网络的“连接主义”,有F.Rosenblatt的感知机,B.Widrow的Adaline等作为代表作。
    1960~1970:基于逻辑表示的“符号主义”发展起来,P.Winston的“结构学习系统”等
    1960~1970:基于决策理论为基础的学习技术和强化学习技术也得到发展,比如N.J.Nilson的“学习机器”.
    1990~:统计学习理论也开始发展起来。
    上面给出了机器学习的大概兴起的方向和时间,下面则开始给出一些机器学习整体性的知识架构。
    R.S.Michalski等人把机器学习分为四大类:
    从样例中学习;在问题求解和规划中学习;通过观察和发现学习;从指令中学习。
    E.A.Feigenbaum等人则将机器学习分为这四类:
    归纳学习,机械学习,类比学习,示教学习。
    两种分类法除了第二类均是不同,其余三类都是一一对应的类似。
    NOTE:从样例中学习也就是广义归纳学习是这些年发展的最多的。
    接下来对于归纳学习进行方向分类:
    符号学习:决策树和基于逻辑的学习。
    典型的决策树学习以信息论作为基础,以信息熵的最小化作为目标,直接模拟人类对概念进行判断的树形流程。简单。
    基于逻辑的学习著名代表是归纳逻辑程序设计ILP(Inductive Logic Programming),是机器学习和逻辑程序设计的交叉,通过一阶逻辑来对知识进行表示,修改和扩充逻辑表示式来完成对数据的归纳。缺点:假设空间太大,复杂度很高。
    基于神经网络的连接主义学习:在1983年,J.J.Hopfield利用神经网络求解"流动推销员问题"取得进展。1986年D.E.Rumelhart等人发明了BP算法。缺点:缺乏理论,“黑箱模型”,手工调参。
    统计学习:支持向量机(SVM)以及更一般的核方法。重要概念:支持向量,VC维,结构风险最小化原则。
    深度学习:就是复杂的神经网络。对于语音和图像等复杂对象应用中比较优越。特点:需要数据量大,数据样本少容易过拟合。需要强力的计算设备。

  6. 应用现状
    机器学习能够有效的对数据进行分析,得到一个相应的算法。机器学习在众多计算机和交叉领域得到应用。
    大数据时代的三大关键技术:机器学习,云计算,众包。机器学习提供数据分析能力,云计算提供数据处理能力,众包提供数据标记能力。
    数据挖掘:这一技术是从海量的数据中发掘知识,需要两种技术支持。一个式数据库管理技术,另一个就是机器学习和统计学知识,然而统计学知识通过机器学习来表现出算法。
    这里在说一个,这是我自己对于现在很火的无人驾驶的感慨,2004年,著名机器学习专家S.Thrun小组研制的自动驾驶小车拿到某比赛冠军。

  7. 阅读材料
    相关推荐资料如下:
    [Mitchell,1997]是第一本机器学习专门性的教材;
    [Duda et al., 2001;Alpaydin,2004;Flach, 2012]都是出色的入门读物;
    [Hastie et al., 2009]进阶读物;
    [Bishop,2006]好的参考书籍,适合贝叶斯学习爱好者,统计;
    [Shalev-Shwartz and Ben-David,2014] 适合理论爱好者;
    [Witten et al.,2011] 有助于初学者通过WEKA这个著名的免费的机器学习算法程序库(JAVA开发)来掌握常用算法。
    其余内容不再赘述,感觉层次比较高,不做说明。

  8. 习题
    1.1理解版本空间是符合训练集的所有假设的集合,于是这里的第1和第4两个样例构成的版本空间应该是以下7个:
    青绿,蜷缩,浊响;
    青绿,* ,* ;
    青绿,蜷缩,* ;
    青绿 ,* ,浊响;
    ,* ,蜷缩,浊响;
    ,* ,蜷缩,* ;
    ,* ,* ,浊响;

    1.2此题并不是很明白,按照文中图1-1的假设空间的写法,这里应该是3 * 4 * 4+1种。
    1.3归纳偏好理解为怎么样判断一个算法才是好的好算法的原则问题。这里可以认为那种的训练错误越低,那么那种算法就是最好的,最适合的。
    1.4 缺席。
    1.5数据分析,大数据中。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值