《机器学习》周志华 第1章 绪论

  • 机器学习:(形式化定义)假设用P来评估计算机程序在某类任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能的改善,则我们就说关于T和P,该程序对E进行了学习。

理解:P是指标,T是任务,程序利用了以往的经验E来提升性能,这就是该程序对E进行了学习

模型:全局性的结果(一颗决策树)
模式:局部性结果(一条规则)
样本(记录):关于一个事件或对象的描述,反映的是该事件或者对象在某方面的表现或者性质的事项
属性空间:属性张成的空间,还可以称为“属性空间”/“样本空间”/“输入空间”
学得模型:通过“学习”或者“训练”数据学得的模型,只是对应于关于数据的某种潜在规律,因此称之为“假设”(hypothesis);而现实中的真实潜在规律,称之为“真相”或“真实”(ground-truth),学习过程就是为了找出或者逼近真相。

分类:预测的是离散值,可以分为二分类和多分类
回归:预测的是连续值

监督学习:训练样本中具有标记,例如:分类和回归任务
非监督学习:训练样本中 不带有标记,例如:聚类

“泛化”(generalization)能力:学得模型适用于新样本的能力

通常我们都假设样本空间中的全体样本都服从的一个未知的“分布” D , 我们获得的每个样本都是 独立地从这个分布上采样获得的,即“独立同分布”

疑惑:但是在现实生活中,很多时候样本的获得不一定满足独立同分布的,这种假设在后面的章节中是否会涉及?

归纳:从特殊到一般的泛化
演绎:从一般到特殊的“特化”
“版本空间”:由于现实中一般都是基于有限的样本训练集进行的,因此,可能有多个假设与训练集一致,即存在一个与训练集一致的“假设集合”
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好
奥卡姆剃刀原则”:若有多个假设与观察一致,则选择最简单的那个。
“多释原则”:主张保留与经验观察一致的所有假设,这与集成学习方面的研究更加吻合。
注意:算法的归纳偏好是否与问题本身相匹配,大多时候决定了算法能否取得较好的性能。

没有免费的午餐(NFL)证明:
在这里插入图片描述
(1) 对于确定的x,h(x)的预测值是确定的,所以对于所有的f,相等或者不等的概率都为1/2, 其中2|X| 表示f的总数。

但是需要注意,虽然没有算法能够解决所有的问题,但是我们只需要针对特定的问题,给出与该问题相匹配归纳偏好的算法,往往会具有不错的性能。

机器学习的发展过程, 以“从样例中学习”为例:

  • 二十世纪八十年代,符号主义学习:决策树和基于逻辑的学习(归纳逻辑程序设计)
  • 二十世纪九十年代中期,基于神经网络的连接主义学习称为了主流的人工智能技术。除此以外,“统计学习”迅速占据主流舞台,代表性技术是SVM以及核方法。
  • 二十一世纪初,深度学习在语音/图像等复杂对象的应用中,深度学习技术取得了优越性能。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值