机器学习基础概念与算法

1.概念与术语

机器学习领域和数据库领域,是数据挖掘的两大支撑。数据库领域的研究为数据挖掘提供数据管理技术,机器学习和统计学的研究为数据挖掘提供数据分析技术。统计学的研究成果,通常需要机器学习研究来形成有效的学习算法。

学习:如果一个系统能够通过执行某种过程而改进它自身的性能,就是学习。
机器学习是机器具有智能的重要标志,同时也是机器获得知识的根本途径。机器学习是人工智能应用继专家系统后的又一重要研究领域。

学习系统有两个主要组成部分:环境、知识库,分别代表外界信息来源和学习成果。加之,学习环节、执行环节,反应了学习系统是一个不断反复的过程。
模型:也叫学习器。
分类:预测的结果是离散值。
回归:预测结果是连续值。
归纳:特殊到一般的泛化过程。
演绎:是一般到特殊的特化过程。
假设空间:所有可能取值的集合。学习就是在假设空间中搜索。
版本空间:与训练集一致(即对所有训练样本能够正确判断)的假设集合。
归纳偏好(inductive bias):算法在学习过程中对某种类型假设的偏好。当版本空间很多时,会选择其中一个符合偏好的。算法的归纳偏好是否与问题本身匹配,大多数时候决定了算法能否取得更好的性能。
奥卡姆剃刀:自然科学研究中最基本的原则。“若有多个假设与观察者一致,选最简单那个”。更平滑意味着更简单。
NFL定理:所有算法在期望性相同,跟随机胡猜差不多。前提:所有问题出现的机会相同、或同等重要。(但实际情形并不是这样)。其寓意为:脱离问题看算法好坏,无意义。
多释原则:保留与经验观察一致的所有解释。这与集成学习的研究更加吻合。(由古希腊哲学家伊壁鸠鲁在公元前300年前后提出)

引用块内容

机器学习的问题可归结为搜索问题,而算法本质是寻找一个最优解(设计一个函数),即一种优化算法。以这个函数的最大值(或最小值)作为学习目标。因此,在考虑解空间中一个可接受解的时候,搜索策略是十分必要的。

根据被学习对象的结构不同,分为:结构化机器学习、非结构化机器学习。如果被学习的对象集合用关系型数据库形式表示,就称为结构化。
结构化机器学习,又可根据对象的数学性质不同,分为:统计机器学习、符号机器学习。尽管,它们使用的数学基函数、搜索策略、搜索目标不完全相同,但都可以理解为一种优化算法。

ICML:国际机器学习会议
NIPS:国际神经信息处理系统会议
COLT:国际学习理论会议

算法分类图

1.1发展

早期计算机科学研究认为:计算机不可能完成事先没有显式编程好的任务。
人工智能之父: 萨缪尔,在1952年在IBM公司研制了一个西洋跳棋程序,有自学能力,不断提高弈棋水平,下赢了自己。发明了“机器学习”这个词。
最早,是推理期:基于符号知识表示、通过演绎推理。
之后,是知识期:基于符号知识表示、通过获取和利用领域知识来建立专家系统。但是发现仅具有逻辑推理能力,是远远不能实现人工智能的。必须使机器拥有知识。
然后,到学习期。大量专家系统问世。“知识工程”之父获图灵奖。但又遇到“知识工程瓶颈”,意思到把人总结出来的知识教给机器很困难。
最后,想到了让机器自己学习知识。

“从样例中学习”在二十世纪八十年代成为主流。两大流派:符号主义学习、基于神经网络的连接学习。

1.1.1.符号主义学习

代表包括:决策树、基于逻辑的学习。
决策树学习:以信息论为基础,以信息熵的最小化为目标。直接模拟了人类对概念进行判定的树形流程。(简单易用)
基于逻辑学习:代表是归纳逻辑程序设计(ILP)。是机器学习与逻辑程序设计的交叉。使用一阶逻辑(谓词逻辑)进行知识表示。通过修改和扩充逻辑表达式完成对数据的归纳。
缺点是:由于表示能力太强,直接导致假设空间过大、复杂度极高。因此问题规模稍大就难以有效学习。

1.1.2.连接主义学习(connection)

就是基于神经网络的连接学习。
最早,神经网络只能处理线性分类,对异或问题都无法处理。
连接注意学习产生的是黑箱模型,因此从知识获取的角度上看,存在弱点。且存在的最大局限是:试错性。简单说,就是学习过程涉及大量参数,而参数的设置缺乏理论指导,主要靠手工调参。
21世纪初,掀起了以“深度学习”为名的热潮。狭义上看,就是很多层的神经网络。在涉及语音、图像等复杂对象的应用中,深度学习技术取得优越性能。降低了使用者门槛。(只要把参数调好,性能就好)

1.1.3.统计学习

代表性技术:支持向量机(SVM)、核方法(kernel method)
与上述连接主义学习有密切联系。在支持向量机被接受后,核技巧被用到机器学习的几乎每一个角落,核方法也逐渐成为机器学习的基本内容之一。

1.2机器学习策略

机械学习(记忆、不推理)、传授学习(指导式学习)、演绎学习(演绎推理:三段论)、归纳学习、类比学习(相似性)、解释学习。

1、机械学习(rote learning)
策略是记忆,不需要任何推理。它把环境提供的知识存储起来,外界输入知识的表示方式与内部表示方式完全一致。
以后的工作就是检索,不需要计算推理。
设计考虑问题:存储结构、环境的稳定性和存储信息的适用性、存储和计算的平衡3个问题。适用于相对稳定、输入输出模型相对固定的系统中。

2、传授学习(指导式学习:learning by being told、示教学习)
外界输入知识的表达式与内部表达式不完全一致,系统需要一点翻译、转化、评价和推理。
从指导者那得到建议,经解释、操作化、归并后,可能产生某些问题。因此必须对新知识进行评价。
通过检查来识别当新知识加入到知识库中时,是否会引起矛盾。常用的方法还有让系统使用这些新知识来执行某些任务,然后观察其是否能正常执行。

3、演绎学习(deductive learning)
以演绎推理为基础的学习。从已知的一般性知识出发,推出已知知识中适合于某些个别情况的结论。即通过给定的知识进行演绎的保真推理,存储有用的结论。
核心是三段论:大前提、小前提、结论。结论是由大前提推出的,并且适合小前提的判断。

4、归纳学习(inductive learning)
可分为有无导师,根据训练数据是否拥有标记信息区分。分类、回归是有导师(监督学习)的代表,聚类是无导师(无监督学习)的代表。
有导师又称为示例学习(learning from example),提供一组正例和反例,学习者归纳出一个总的概念描述,使其覆盖所有正例,排除所有反例。推理量较多。
无导师又称观察与发现学习(learning from observation and discovery),由环境提供的观察来学习,且这些观察是未经指导者分类的例子。需要更多推理。

5、类比学习(learning by analogy)
利用相似性认识新事物,基

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值