PAC可学习性

原创 2016年06月02日 12:21:47

PAC

PAC可学习性
训练学习器的目标是,能够从合理数量的训练数据中通过合理的计算量可靠的学习到知识。
机器学习的现实情况:
1、除非对每个可能的数据进行训练,否则总会存在多个假设使得真实错误率不为0,即学习器无法保证和目标函数完全一致
2、训练样本是随机选取的,训练样本总有一定的误导性

什么是PAC可学习的
弱化对学习器的要求:
1、我们不要求学习器输出零错误率的假设,只要求错误率被限制在某常数ε范围内,ε可为任意小。
2、不要求学习器对所有任意抽取的数据都能成功预测,只要求其失败的概率被限定在某个常数μ的范围内,μ可取任意小。
简而言之,我们只要求学习器可能学习到一个近似正确的假设,故得到了“可能近似正确学习”或PAC学习。

一个可PAC学习的学习器要满足两个条件:
• 学习器必须以任意高的概率输出一个错误率任意低的假设
• 学习过程的时间最多以多项式方式增长
对于PAC学习来说,训练样本的数量和学习所需的计算资源是密切相关的。如果学习器对每个训练样本需要某最小处理时间,那么为了使目标函数f是可PAC学习的,学习器必须在多项式数量的训练样本中进行学习。实际上,为了显示某输出空间的类别C是可PAC学习的,一个典型的途径是证明中每个C可以从多项式数量的训练样本中学习到,而后证明每个样本处理时间也限制于多项式级。
How many training examples are sufficient to assure that any consistent hypothesis will be probably (with probability 1-δ) approximately correct (within error ε) .
如果想要概率低于δ(0<=σ<=1),所以|H|e^(-εm)<δ
所以:m>=1/ε*(lnH + ln(1/δ)) (2)

PAC 模型是与分布无关的, 因对学习器来说, 实例上的分布是未知的。该定义不要求学习器输出零错误率的假设,而只要求其错误率被限定在某常数ε的范围内(ε可以任意小);同时也不要求学习器对所有的随机抽取样本序列都能成功, 只要其失败的概率被限定在某个常数δ的范围内(δ也可取任意小)即可。
举例说明
设学习器L 其假设空间与概念空间相同, 即H =C ,因假设空间为n 个布尔文字的合取, 而每个文字有3种可能:该变量作为文字包含在假设中;该变量的否定作
为文字包含在假设中或假设中不包含该变量, 所以假设空间的大小为|H |=3n 。可设计一算法如下:
(1)初始化假设h 为2 n 个文字的合取, 即h = x1
!x1 x2 !x2K xn !xn ;
(2)由样本发生器产生m = 1/2(n ln3 +ln1/δ)个样本,并对每个正例,若xi =0 ,则从h 中删去xi ;若x =1 ,则从h 中删去!xi ;
根据ε-bad 假设的定义有:
Pr[ ε-bad 假设与一个样本一致] ≤1 -ε, 因每个样
本独立抽取, 则
Pr[ ε-bad 假设与m 个样本一致] ≤(1 -ε)m 。又因
最大的假设数为|H |,则
Pr[ 存在一ε-bad 假设与m 个样本一致] ≤|H |(1
-ε)m 。又因要求
Pr[ h 是ε-bad 假设] ≤ δ,所以有:
|H |(1 -ε)^m ≤ δ,解之得:m ≥ln |H |+ln1/δ-ln(l -ε) (1)
又据泰勒展开式:ex =1 +x +x2/2 ! +K >1 +x , 用x=-ε代入泰勒展开式中,得ε<-ln(1 -ε)。将其代入(1)中得:  m >(ln |H |+ln1/δ) (2)
针对本例有|H|=3n , 将它代入(1)中得到当样本数
m > 1/ε(n ln3 +ln1/δ)时, 有Pr[ errorD(h)>ε] ≤δ成立。

出错概率模型Mistake Bound Framework

Weight Majority Algorithm
k: minimal number of mistakes
对于 0<=b<=1,,M<= (k*log2(1/b)+log(n))/(log2(1/(1+b)))

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

PAC学习理论:机器学习那些事

机器学习是有别于专家系统(基于知识/规则)的一种模式识别方法,与专家系统的构建方法不同,但目的相同。本文分析了一众机器学习方法,并给出了一些机器学习概念的通俗解释。...

PAC学习模型

1.问题框架     令X代表所有实例的集合,目标函数在其上定义。例如,X可表示所有人的集合,每个人描述为属性age(young或 old)和height (short或 long)。令C代表学习器...

机器学习物语(4):PAC Learnability

这次我们要介绍的话题是 PAC Learnability ,直译过来就是 PAC 可学习性。可学习性听起来和计算理论里的可计算性是很类似的,当然其实也确实是类似的,而且这里也包含一些计算理论里的内容。...
  • csshuke
  • csshuke
  • 2016年08月16日 15:44
  • 958

Boosting学习(一)——PAC学习模型到Boosting

PAC ( Probably Approximately Correct)可能近似正确学习模型 因为我们不能指望学习能够零错误,并且也不能要求对任意数据的预测能够成功,但是我们需要将错误率和预测失败率...

计算学习理论PAC模型

计算学习理论 计算学习理论主要研究关于机器学习的一般化概念,比如什么样的问题才能被学习,什么样条件下学习才可能成功,怎么样评价一个学习的成功与否主要研究了两个机器学习的一般性框架,可能近似正确(PA...

30分钟了解PAC学习理论——计算学习理论第一讲

 PAC理论是计算学习理论很重要的一部分,它解释了机器学习的学习机理。了解此理论可以更深入的了解机器学习,解释模型的泛化效果。如果深入研究更能帮助我们针对不同问题选择不同模型。  ...

周志华《Machine Learning》学习笔记(14)--计算学习理论

转自:http://blog.csdn.net/u011826404/article/details/73351162 上篇主要介绍了常用的特征选择方法及稀疏学习。首先从相关/无关特征出发引...
  • hhsh49
  • hhsh49
  • 2017年11月11日 10:15
  • 39

Foundation of Machine Learning 笔记第四部分 —— Generalities 以及对不一致假设集的PAC学习证明

《Foundation of Machine Learning》笔记第四部分 翻译自书本2.4节。同时增加了对假设集不一致情况的PAC证明...

周志华《Machine Learning》学习笔记(15)--半监督学习

上篇主要介绍了机器学习的理论基础,首先介绍了PAC可学习的基本概念,对于有限假设空间:可分情形时,假设空间都是PAC可学习的;不可分情形时,假设空间都是不可知PAC可学习的。对于无限假设空间,通过VC...

algorithm 中常见的函数

accumlate : iterator 对标志的序列中的元素之和,加到一个由 init 指定的初始值上。重载的版本不再做加法,而是传进来的二元操作符被应用到元素上。  adjacent_dif...
  • llwwlql
  • llwwlql
  • 2016年09月18日 08:07
  • 628
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:PAC可学习性
举报原因:
原因补充:

(最多只允许输入30个字)