周志华《机器学习》——第一章绪论笔记

一、引言

机器学习研究的主要内容是关于在计算机上从数据中产生“模型”的算法,即学习算法(learning algorithm)。
有了学习算法,我们把经验数据提供给它,就能基于这些数据产生模型;在面对新的情况时,模型可以给出预测。
机器学习是研究关于“学习算法”的学问。
本书用“模型”泛指从数据中学得的结果。有文献用“模型”指全局性结果(例如一棵决策树),而用“模式”指局部性结果(例如一条规则)。

二、基本术语

数据集(data set):记录的集合。
示例(instance)/样本(sample):关于一个事件或对象的描述。
属性(attribute)/特征(feature):反应事件或对象在某方面的表现或性质的事项。
属性值(attribute value):属性上的取值。
属性空间(attribute space)/样本空间(sample space)/输入空间:属性张成的空间。
特征向量(feature vector):由属性空间中的每一点对应一个坐标向量,因此把一个示例也称为特征向量。
样本的维数:属性的个数。
学习(learning)/训练(training):从数据中学得模型的过程。
训练数据(training data):训练过程中使用的数据。
训练样本(training sample)/训练示例(training instance)/训练例:训练数据中的每个样本,称为一个训练样本。
训练集(training set):训练样本组成的的集合。
假设(hypothesis):学得模型对应了关于数据的某种潜在规律,因此亦称”假设“。
真相/真实(ground-truth):潜在规律。
学习器(learner):本书有时将模型也称为学习器,可看作学习算法在给定数据和参数空间的实例化。
标记(label):训练示例的结果信息
样例(example):拥有标记信息的示例。
标记空间(label space)/输出空间:所有标记的集合。

分类(classification):若预测的是离散值,此类学习任务称为分类。
回归(regression):预测的是连续值,此类学习任务称为回归。
对只涉及两个类别的”二分类(binary classification)”任务,通常称其中一个类为“正类(positive class),另一个为“反类(negative class)/负类”。
涉及多个类别的时,则称为“多分类(multi-class classification)”任务。
一般地,预测任务就是希望通过对训练集进行学习,建立一个从输入空间到输出空间的映射。
测试(testing):学得模型后,使用其进行预测的过程。
测试样本(testing sample)/测试示例/测试例:被预测的样本。
聚类(clustering):将训练集分成若干组。
簇(cluster):每一组称为一个簇。

根据训练数据是否拥有标记信息,学习任务课大致划分为两大类:“监督学习(supervised learning)/有导师学习” 和“无监督学习(unsupervised)/无导师学习”。
分类和回归时监督学习的代表,聚类是无监督学习的代表。

机器学习的目标是使学得的模型能很好的适用于“新样本”,而不仅仅在训练样本上工作的好。
泛化(generalization)能力:学得模型适用于新样本的能力。
通常假设样本空间中全体样本服从一个未知的“分布(distribution)”,我们获得每一个样本都是独立地从这个分布上采样获得的,即“独立同分布(independent and identically distributed)”。

三、假设空间

归纳(induction)和演绎(deduction)是科学推理的两大基本手段。
归纳:从特殊到一般的“泛化”过程,即从具体事实归结出一般性规律。
演绎:从一般到特殊的“特化”过程,即从基础原理推演出具体情况。
“从样例中学习”显然是一个归纳过程,因此亦称“归纳学习(inductive learning)”。
归纳学习有广义和狭义之分,广义的归纳学习大体相当于从样例中学习,二狭义的归纳学习则要求从训练数据中学得概念(concept),因此亦称“概念学习”或“概念形成”。
概念学习中最基本的是布尔概念学习,即对“是” "不是"这样的可表示为0/1布尔值的目标概念的学习。
我们可以把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设,即能够将训练集中的瓜判断正确的假设。
假设的表示一旦确定,假设空间及其规模大小就确定了。例:假设空间由形如“(色泽=?) ^(根蒂=?) ^(敲声=?)”的可能取值所形成的假设组成。
版本空间(version space):在现实问题中我们经常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能由多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,我们称之为“版本空间”。

四、归纳偏好

归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”,简称为“偏好”。
任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。可以想象,如果没有偏好,我们的西瓜学习算法产生的模型每次在进行预测时随机抽选训练集上的等效假设,那么对新瓜,学得模型时而告诉我们它是好瓜,时而告诉我们它是坏瓜,学得结果显然没有意义。
归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。
那么,有没有一般性的原则来引导算法确立“正确的”偏好呢?
**奥卡姆剃刀(Occam’s razor)**是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选择最简单的那个”。但是对“简单”的评价需借助其他机制才能解决。
事实上,归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设。在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。
“没有免费的午餐定理”(No Free Lunch Theorem——NFL):学习算法的期望性能相同。
NFL前提:所有“问题”出现的机会相同、或所有问题同等重要。
NFL的意义是让我们认识到,脱离具体问题,空谈“什么学习算法好”毫无意义,因为若考虑所有潜在的问题,则所有学习算法都一样好。
学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用。

五、发展历程

机器学习是人工智能发展到一定阶段的产物。
二十世纪五十年代-七十年代初,人工智能处于“推理期”,代表工作:A.Newell和H.Simon的“逻辑理论家”(logic theorist)程序和“通用问题求解”(General Problem Slving)程序等。但仅有逻辑推理能力远远不够。
二十世纪七十年代中期,人工智能研究进入“知识期”,专家系统问世。专家系统面临“知识工程瓶颈”,即由人来把知识总结出来再教给计算机是相当困难的。
图灵1950年曾提到机器学习的可能。
二十世纪五十年代初已有机器学习的相关研究,例如A.Samuel著名的跳棋程序。
五十年代后期,基于神经网络的“连接主义”(connectionism)学习开始出现,代表工作:F.Rosenblatt的感知机(Perception)、B.Widrow的Adalined等。
六七十年代,基于逻辑表示的“符号主义”(symbolism)学习技术蓬勃发展,代表工作:P.Winston的“结构学习系统”、R.S.Michalski等人的“基于逻辑的归纳学习系统”、E.B.Hunt等人的“概念学习系统”等;以决策理论为基础的学习技术以及强化学习技术等也得到发展,代表工作:N.J.Nilson的“学习机器”等;二十多年后红极一时的统计学习理论的一些奠基性结果也是在这个时期取得的。
八十年代,各种研讨会、期刊的创办,使得机器学习成为一个独立的学科领域、各种机器学习技术百花初绽的时期。

R.S.Michalski等人1983年把机器学习研究划分为“从样例中学习” “在问题求解和规划中学习” “通过观察和发现学习” “从指令中学习”等种类;
E.A.Feigenbaum等人1983年把机器学习研究划分为“机械学习” “示教学习” “类比学习” 和”归纳学习“。示教学习和类比学习类似从指令中学习和通过观察和发现学习,归纳学习相当于从样例中学习。
二十世纪八十年代以来被研究最广的就是”从样例中学习“(也就是广义的归纳学习)。
2010年迁移学习(transfer learning)恰似“类比学习”在统计学习技术大发展后的升级。

“从样例中学习”的主流技术
在二十世纪八十年代,“从样例中学习”的一大主流是符号主义学习,代表包括决策树和基于逻辑的学习典型的决策树学习以信息论为基础,以信息熵为最小化目标,直接模拟了人类对概念进行判定的树形流程基于逻辑的学习的著名代表是归纳逻辑程序设计(Inductive Logic Programming——ILP),可看作机器学习与逻辑程序设计的交叉,它使用一阶逻辑(即谓词逻辑)来进行知识表示,通过修改和扩充逻辑表达式来完成对数据的归纳。ILP具有很强的知识表达能力,可以较容易地表达出复杂数据关系,而且领域知识通常可方便地通过逻辑表达能力进行描述,因此,ILP不仅可利用领域知识辅助学习,还可以通过学习对领域知识进行精华和增强;然而,因为表示能力太强,直接导致学习过程面临的假设空间太大,复杂度极高。
二十世纪九十年代中期之前,“从样例中学习”的另一主流是基于神经网络的连接主义学习。符号主义产生的是明确的概念表示,连接主义学习产生的是“黑箱”模型,因此从知识获取的角度来说,连接主义技术有明显的弱点;然而因为由BP算法这样有效的算法,使得它在许多现实问题上发挥作用。连接主义的最大局限是其“试错性”;简单地说,其学习过程涉及大量的参数,而参数的设置缺乏理论指导,主要靠手工“调参”;夸张一点说,参数调节上失之毫厘,学习结果可以谬之千里。
二十世纪九十年代中期,“统计学习”(Statistical learning)闪亮登场并快速占据主流舞台,代表性技术是支持向量积(Surpport Vector Machine——SVM)以及更一般的“核方法”(Kernal methods)
二十一世纪初,连接主义学习又卷土重来,掀起了以**“深度学习”**为名的热潮。所谓深度学习,狭义地说,“很多层”的神经网络。在若干测试和竞赛上,尤其是涉及语音、图像等复杂对象的应用中,深度学习技术取得了优异的性能。以往机器学习技术在应用中要取得好性能,对使用者要求较高;而深度学习技术涉及的模型复杂度非常高,以至于只要下功夫调参,性能往往就好。因此,深度学习虽缺乏严格的理论基础,但它显著降低了机器学习应用者的门槛。

六、相关重要会议和期刊

机器学习领域最重要的国际学术会议是国际机器学习会议(ICML)、国际神经信息处理系统(NIPS)和国际学习理论会议(COLT),重要的区域性会议有欧洲机器学习会议(ECML)和亚种机器学习会议(ACML)。
最重要的国际学术期刊是Journal of Machine Learning ResearchMachine Learning

人工智能领域的重要会议如IJCAI、AAAI以及重要期刊如Artificial IntelligenceJournal of Aritifical Intelligence Research

数据挖掘领域的重要会议如KDD、ICDM以及重要期刊如ACM Transactions on Knowledge Discovery from DataData Mining and Knowledge Discovery

计算机视觉与模式识别领域重要会议如CVPR以及重要期刊如IEEE Transactions on Pattern Analysis and Machine Intelligence

神经网络领域重要期刊如Neural ComputationIEEE Transactions on Neural Networks and Learning Systems等也经常发表机器学习方面的论文。

统计领域重要期刊如Annals of Statistics等。

国内机器学习领域最主要的活动是两年一次的中国机器学习大会(CCML)以及每年举行的“机器学习及其应用”研讨会(MLA)。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值