周志华西瓜书学习笔记(一)

周志华西瓜书学习笔记

第一章 绪论

数据处理分为三个阶段:收集,分析,预测。

一、基本概念

机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。

Mitchell给出的更形式化的定义为:假设用P来评估计算机程序在某任务T上的性能,若一个程序通过利用经验E在T中获得了性能改善,我们就可以说T和P,该程序对E进行了学习。

(一)泛化(generalization)

学得的模型适用于新样本的能力,称之为泛化能力。具有强泛化能力的模型能够更好地使用于整个样本空间。

(二)独立同分布(i.i.d)

通常假设样本空间的全体样本服从一个未知的分布(distribution),我们获得的每一个样本都是从整个样本空间中采样获得的,即“独立同分布”(independent and identically distributed, i.i.d)

二、假设空间大小计算

以文中的西瓜为例,求出假设空间:

这里我们的假设空间由形如“(色泽=?)^ (根蒂=?)^(敲声=?)”的可能取值所形成的假设组成。

色泽有“青绿”和“乌黑”两种取值,还需考虑无论色泽取什么值都合适的情况,用通配符(*)表示。色泽属性共三种取值;

根蒂有“蜷缩”、“硬挺”和“稍蜷”三种取值,同理再加通配符(*)表示,根蒂属性共四种取值;

敲声有“浊响”、“清脆”和“沉闷”三种取值,同理再加通配符(*)表示,敲声属性共四种取值;

还有一种假设组成——可能"好瓜”这个概念就不成立,我们用∅表示这种假设。

那么,所对应的假设组成的个数为:3x4x4+1=49. 即表1所对应的假设空间的规模大小为49. 其中:

具体假设: 2x3x3=18 种

一个通配符:2x3+3x3+2x3=21种

两个通配符:2+3+3=8 种

三个通配符:1种

概念不存在:1种

三、归纳偏好(inductive bias)

机器学习中对于某种假设类型具有特殊的偏好,成为归纳偏好(inductive bias),任何一个有效的机器学习算法必然都有其归纳偏好,否则无法产生确定的有意义的学习效果,会被“等效”的各个假设所迷惑。

(一)归纳原则——奥卡姆剃刀(Occam’s razor)

Occam’s razor是自然科学研究中最基本的原则,“若有多个假设与观察结果意志,则选用最简单的那个”,更平滑意味着更简单。

(二)没有免费的午餐定理——NFL(No Free Lunch)定理

对于某一个算法A,在一些问题上的表现优于算法B,必然存在某些问题的表现劣于算法B。

NFL定理出现前提:所有问题出现机会相同,所有问题同等重要。
NFL定理的意义是:脱离了问题本身,讨论哪种算法更好将没有任何意义。若考虑所有潜在问题,所有算法一样好,要谈论算法的优劣,必须要针对具体的学习问题。

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值