机器学习(周志华)-学习笔记

一、绪论

1.1 引言

  •   E、T、P定义:通过从经验E中学习,针对某项任务T,实现了任务性能P的提升,并可以对未见过的新任务,作出有价值的判断。

1.2基本术语

  • 数据集data set
    • 示例instance  /  样本sample  +  标记label  =  样例example,有时也称样本(此时,视标记 label 为样本本身的一部分)即 xy)
    • 属性attribute  /  特征feature
      • 属性值attribute value   张成为:属性空间attribute space  /  样本空间  sample space  又称  输入空间,数据集通常是样本空间的一个采样;
      • 标记值label   组成:输出空间 label space;
  • 学习learning  /  训练training:通过学习算法learning algorithm,训练数据(training data),得到模型。
  • 学得模型,定义为:假设hypothesis(是一种与训练集一致的从输入空间X到输出空间Y的映射,对应于数据的某种潜在规律)v.s.  这种潜在的规律本身,定义为:真实ground-truth
  • 监督学习supervised:分类classifucation,回归regression  v.s.  无监督unsupervised:聚类clustering 
  • 测试testing,使用学得模型进行预测,被预测的样本称测试样本testing sample,比如学得模型 f 作用于测试样本 ,得到其预测标记y=f(x) 
  • 泛化generalization(when we have unseen instance 未见新样本),希望学得模型不仅仅在训练集上应用得好,而且适用于整个样本空间。
  • 独立同分布采样 (i.i.d) independent identically distribution ,独立的从样本空间中采样获得,样本越多,模型泛化能力越强。

1.3假设空间

  • 假设就是学习得到的模型,可能有多个模型与训练集一致,它们一起组成了版本空间version space
  • 如何表示假设一旦确定,所有可能与不可能的假设,组成了假设空间,学习过程就是搜索与训练集匹配一致的假设集合,即版本空间version space
  • 机器学习做的事情,就是从特殊到一般的归纳 induction,即归纳学习 inductive learning,以期得到泛化能力强,语义明确(输出空间有清晰的概念concept)的模型

1.4归纳偏好

通过学习得到了对应假设空间中的一个假设,即学得模型。该模型应当是“唯一的”。现实中,人们做决定前可能有很多选择空间,但最终做出的选择只有一个,这种选择必定是基于某种偏好的。

  • 假设偏好inductive bias:任何一个有效的机器学习算法learning algorithm,必定对某种类型的假设有偏好,否则,对训练集等效的不同假设,当面临某个新的未见样本时,就可能给出不同的判断预测结果,这是无意义的。
  • 要找到一个与训练集一致的模型,就好像要找到一条穿过所有训练样本点的曲线,而往往存在多条曲线与有限的样本点一致,因此就必须有“启发式”或者“价值观”,来帮助学得模型做出选择。(这里所谓的选择,与数值分析中函数拟合的方法有些相似)以下是一些一般性原则:
    • 第一,奥卡姆剃刀(Occam‘s razor):同样效果之下,选那个更简单的。而如何判断哪个更简单,需要引入其他机制。
    • 第二,“没有免费午餐”定理(No Free Lunch Theorem):对一个算法a,若其在某些问题比算法b更好,则必定存在另一些问题,在那里算法b比算法a更好。该定理的前提是所有问题出现的机会相同,或所有问题同等重要。但实际中,我们往往只关心对某个具体的应用任务,解决方案能否取得最佳效果。
    • 脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义,因为若考虑所有潜在的问题,所有学习算法都一样好。要谈论算法的相对优劣,必须要针对具体的学习问题,算法各有长短,互有优劣,算法的归纳偏好是否与问题本身(想要的效果)匹配,决定了算法能否取得好的性能。

1.5发展历程(这部分完全是个人兴趣,哈哈!以下时间均为20世纪,如50s,代表20世纪50年代)

机器学习是人工智能发展到一定阶段的必然产物。

  • 历史进程
    • 50s-70s:“推理期”:赋予机器逻辑推理能力,逻辑理论家和通用问题求解等程序,可以完成数学定理的证明;
    • 70s-80s:“知识期”:赋予机器知识,专家系统;瓶颈是由人把知识总结出来再教给计算机相当困难;
    • 80s-至今:“学习期”:赋予机器自主学习知识的能力;
  • 机器学习发展历程
    • 50s-70s:图灵测试讨论机器学习可能性;A. Samuel跳棋程序;神经网络的连接主义connectionism学习,如感知机perception等;基于逻辑表示的符号主义symbolism学习,“结构学习系统”等;基于决策理论的学习和强化学习,如“学习机器”等;统计学习理论的奠基性工作等。
    • 80s以来:机器学习大致分为:从样例中学习,在问题求解和规划中学习,通过观察和发现学习,从指令中学习等类别(R.S. Michalski,1983)。其中,从样例中学习是一种广义的归纳学习,是被研究最多,应用最广的机器学习种类。涵盖监督和无监督学习。
    • 80s:符号主义学习,决策树decision tree和基于逻辑的学习;由于在人工智能“推理期”和“知识期”中,符号知识表示取得了很大成就和成果,因此,自然在“学习期”的初期倍受青睐。决策树技术简单易用,至今仍十分常用;基于逻辑的学习技术,很强的领域知识表达能力,但因此导致的假设空间过大,复杂度极高,致使其在mid-90s陷入低潮。
    • 80s-mid90s:基于神经网络的连接主义学习,从“异或”问题的解决困难(1969),到流动推销员NP难问题的解决(1983),再到反向传播(Back-Propagation)算法的发明(1986),连接主义技术以其有效性实用性,发展迅速。从知识获得的角度,连接主义产生的是”黑箱“模型,这一点与符号主义能产生概念明确的表示模型不同,是一个弱点;更重要的是,学习过程涉及大量的参数,参数的设置缺乏理论指导,主要靠手工”调参“,夸张地说,参数调节上失之毫厘,学习结果可能谬以千里。
    • mid-90s:统计学习statistical learning,支持向量机(support vector machine)和更一般的核方法(kernel methods)。”支持向量“概念(Vapnik 1963),”VC维“(1968),结构风险最小化原则(1974),直到九十年代中期有效的支持向量算法提出后,才在文本分类应用中,成为主流机器学习技术;核技巧也被用在机器学习的各个角落。
    • 21BC:深度学习为名的连接主义学习,数据量庞大+计算能力强大了,带来深度学习的繁荣;降低了机器学习的使用门槛,更加依赖手工调参,缺乏严格理论基础,为机器学习走向工程实践提供便利。

1.6应用现状

在过去的二十多年,人类收集、存储、传输、管理、处理、利用数据的能力飞速提升。个人认为,在信息行业的这几方面上的软、硬件实现上都大有可为。

  • 机器学习、云计算、众包是大数据时代的三大关键技术。
  • 数据挖掘的技术基础是机器学习(以统计学为理论基础)算法实现和数据库数据管理。
  • 机器学习的国家战略意义、对人类社会政治经济生活的意义、对探索自然的意义。

1.7阅读材料(等有空再整理)

  

  努力修炼鸭!

 

转载于:https://www.cnblogs.com/learingpark/p/10879293.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值