[机器学习]计算学习理论

本文档记录了《机器学习》第 12 章计算学习理论相关内容

基本概念

计算学习理论的目的

分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计。

泛化误差与经验误差

  • 泛化误差:输入输出映射 h() 在整个样本空间 上所表现出的误差。

    E(h;)=Px(h(x)y)

    任意两个映射之间的不合: d(h1,h2)=Px(h1(x)h2(x))

  • 经验误差:输入输出映射 h() 在训练数据集 D 上所表现出的误差。

    Ê (h;D)=PxD(h(x)y)

    经验误差为 0 则表示假设与样本空间一致

由于 D 的同分布采样,因此 h 的泛化误差等于经验误差的期望。

常用不等式(P268)

  • Jesen 不等式
  • Hoeffding 不等式
  • McDiarmid 不等式

概率近似正确(Probably Approximately Correct)学习

基本符号

  • 复杂度:size()

    • 概念: c ,从样本空间到标记空间的映射
    • 目标概念:(x,y),c(x)=y
    • 概念类: ,包含目标概念的集合
    • 学习算法: ?
    • 假设: h ,从样本空间到标记空间的映射
    • 假设空间:,给定学习算法包含的所有假设的集合,依赖于学习算法存在
    • 置信度: δ(0,1)
    • 误差参数: ϵ(0,1) ,经验误差的上界,预先设定的学习模型所应满足的误差要求
    • 假设空间的可分性

      若目标概念 c ,则 中存在假设使得所有样本输入的输出与真实标记一致,则称该问题对学习算法 ? 是可分的(一致的)。

      若不存在目标概念 c ,则称该问题对学习算法 ? 是不可分的(不一致的)。

      PAC 辨识

      0<ϵ,δ<1,c, ,若存在学习算法 ? 能以至少 1δ 的概率学得目标概念 c 的近似 h,即:

      P(E(h)ϵ)1δ

      则称该学习算法能从假设空间中辨识概念类

      PAC 可学习

      m 是从样本分布空间 中独立同分布采样得到的样本 x 的数目,若存在学习算法 ? 和多项式函数 poly() m,mpoly(1/ϵ,1/δ,size(x),size(c)) ,学习算法 ? 能从假设空间 中辨识概念类 ,则称概念类 对假设空间 而言是 PAC 可学习的。

      = 时,称恰 PAC 可学习

      PAC 学习算法

      若学习算法 ? 使概念类 是 PAC 可学习的,且运行时间是多项式函数 poly(1/ϵ,1/δ,size(x),size(c)) ,则称概念类 高效 PAC 可学习的 ? 为概念类 的 PAC 学习算法。

      样本复杂度

      满足 PAC 学习算法 ? 所需的最小样本数 mpoly(1/ϵ,1/δ,size(x),size(c)) ,称为 ? 的样本复杂度。

      假设空间复杂度

      有限假设空间

      || 有限时的假设空间。

      可分情形

      在可分有限假设空间中,一定能从假设空间找到一个假设 h 满足概念要求,即训练集上表现完美,所需的样本数约束条件为:

      m1ϵ(ln||+ln1δ)

      在该约束条件下,假设 h 的泛化误差随着样本数 m 的增加收敛到 0,收敛速率为 O(1m) ,即给定样本数 m 时,学习器的泛化误差下界为 1m(ln||+ln1δ)

      不可分情形

      • 不可知 PAC 可学习:如果学习算法 ? 能够学出满足如下约束条件的假设 h ,则称假设空间 是不可知 PAC 学习的。

        P(E(h)minhE(h)ϵ)1δ

      • 高效不可知 PAC 可学习:在不可知 PAC 可学习中,如果学习算法 ? 的运行时间也是多项式函数 poly(1/ϵ,1/δ,size(x),size(c)) ,则称假设空间 是高效不可知 PAC 学习的;学习算法 ? 称为 的高效不可知 PAC 学习算法。

      无限假设空间

      VC 维

      经验风险最小化(Empirical Risk Minimization)原则

      h 为学习算法 ? 的输出假设,满足

      Ê (h)=minhÊ (h)

      则称 ? 满足经验风险最小化原则。

      增长函数

      设假设 h 对训练集 D 中样本的标记结果为:

      h|D={(h(x1),(h(x2),...,(h(xm))}

      对所有的 m ,假设空间的增长函数为:

      Π=max{x1,x2,...xm}|{(h(x1),(h(x2),...,(h(xm))|h}|

      表示假设空间对 m 个样本所能赋予标记的最大可能数,该值越大则假设空间的表示能力越强。

      对分和打散

      尽管假设空间的大小可能是无穷的,但是对于训练集 D 的可能标记结果数是有限的。

      • 对分:在二分类问题中,假设空间对训练集的每种标记结果称为对 D 的一种对分
      • 打散:如果假设空间能实现样本集上所有对分,即假设空间的增长函数 Π(m)=2m,则称样本集 D 能被假设空间 打散
      VC 维

      假设空间 的 VC 维是能被 打散的最大样本集的大小:

      VC()=max{m:Π(m)=2m}=d

      • 只要存在大小为 d 的样本集能被假设空间打散即可。
      • 不存在大小为 d+1 的样本集能被假设空间打散。
      • 分布无关(数据独立)性:VC 维的泛化误差界只与样本数目有关,并且收敛速率为 O(1m) ,与数据分布 无关。
      • 增长函数上界:
        • 对任意 m Π(m)di=0(mi)
        • md Π(m)(emd)d
      • 任何 VC 维有限的假设空间都是(不可知) PAC 学习的。

      Rademacher 复杂度???

      在一定程度上考虑了数据的分布。

      稳定性

      考察算法在输⼊(训练集)发⽣变化时,输出是否发⽣较⼤的变化。

      训练集的两种变化

      • 移除: Di
      • 替换: Di

      损失函数

      损失函数刻画了学习算法在训练集上预测标记与真实标记的差别:

      l(?D(x),y):×+

      简记为 l(?D,z=(x,y))

      • 泛化损失: l(?,D)=?x,z=x,y[l(?D,z)]
      • 经验损失: l̂ (?,D)=1mmi=1l(?D,zi)
      • 留一损失: lloo(?,D)=1mmi=1l(?Di,zi)

      均匀稳定性

      • β -均匀稳定性:学习算法满足对所有的 i |l(?D,z)l(?Di,z)|β
        • 替换: |l(?D,z)l(?Di,z)|2β
      • 对于损失函数,若学习算法的输出满足经验损失最小化,则称算法满足经验风险最小化。
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值