关闭

PAC可学习性

标签: PAC机器学习
1159人阅读 评论(0) 收藏 举报
分类:

PAC

PAC可学习性
训练学习器的目标是,能够从合理数量的训练数据中通过合理的计算量可靠的学习到知识。
机器学习的现实情况:
1、除非对每个可能的数据进行训练,否则总会存在多个假设使得真实错误率不为0,即学习器无法保证和目标函数完全一致
2、训练样本是随机选取的,训练样本总有一定的误导性

什么是PAC可学习的
弱化对学习器的要求:
1、我们不要求学习器输出零错误率的假设,只要求错误率被限制在某常数ε范围内,ε可为任意小。
2、不要求学习器对所有任意抽取的数据都能成功预测,只要求其失败的概率被限定在某个常数μ的范围内,μ可取任意小。
简而言之,我们只要求学习器可能学习到一个近似正确的假设,故得到了“可能近似正确学习”或PAC学习。

一个可PAC学习的学习器要满足两个条件:
• 学习器必须以任意高的概率输出一个错误率任意低的假设
• 学习过程的时间最多以多项式方式增长
对于PAC学习来说,训练样本的数量和学习所需的计算资源是密切相关的。如果学习器对每个训练样本需要某最小处理时间,那么为了使目标函数f是可PAC学习的,学习器必须在多项式数量的训练样本中进行学习。实际上,为了显示某输出空间的类别C是可PAC学习的,一个典型的途径是证明中每个C可以从多项式数量的训练样本中学习到,而后证明每个样本处理时间也限制于多项式级。
How many training examples are sufficient to assure that any consistent hypothesis will be probably (with probability 1-δ) approximately correct (within error ε) .
如果想要概率低于δ(0<=σ<=1),所以|H|e^(-εm)<δ
所以:m>=1/ε*(lnH + ln(1/δ)) (2)

PAC 模型是与分布无关的, 因对学习器来说, 实例上的分布是未知的。该定义不要求学习器输出零错误率的假设,而只要求其错误率被限定在某常数ε的范围内(ε可以任意小);同时也不要求学习器对所有的随机抽取样本序列都能成功, 只要其失败的概率被限定在某个常数δ的范围内(δ也可取任意小)即可。
举例说明
设学习器L 其假设空间与概念空间相同, 即H =C ,因假设空间为n 个布尔文字的合取, 而每个文字有3种可能:该变量作为文字包含在假设中;该变量的否定作
为文字包含在假设中或假设中不包含该变量, 所以假设空间的大小为|H |=3n 。可设计一算法如下:
(1)初始化假设h 为2 n 个文字的合取, 即h = x1
!x1 x2 !x2K xn !xn ;
(2)由样本发生器产生m = 1/2(n ln3 +ln1/δ)个样本,并对每个正例,若xi =0 ,则从h 中删去xi ;若x =1 ,则从h 中删去!xi ;
根据ε-bad 假设的定义有:
Pr[ ε-bad 假设与一个样本一致] ≤1 -ε, 因每个样
本独立抽取, 则
Pr[ ε-bad 假设与m 个样本一致] ≤(1 -ε)m 。又因
最大的假设数为|H |,则
Pr[ 存在一ε-bad 假设与m 个样本一致] ≤|H |(1
-ε)m 。又因要求
Pr[ h 是ε-bad 假设] ≤ δ,所以有:
|H |(1 -ε)^m ≤ δ,解之得:m ≥ln |H |+ln1/δ-ln(l -ε) (1)
又据泰勒展开式:ex =1 +x +x2/2 ! +K >1 +x , 用x=-ε代入泰勒展开式中,得ε<-ln(1 -ε)。将其代入(1)中得:  m >(ln |H |+ln1/δ) (2)
针对本例有|H|=3n , 将它代入(1)中得到当样本数
m > 1/ε(n ln3 +ln1/δ)时, 有Pr[ errorD(h)>ε] ≤δ成立。

出错概率模型Mistake Bound Framework

Weight Majority Algorithm
k: minimal number of mistakes
对于 0<=b<=1,,M<= (k*log2(1/b)+log(n))/(log2(1/(1+b)))

0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:67868次
    • 积分:1956
    • 等级:
    • 排名:千里之外
    • 原创:128篇
    • 转载:16篇
    • 译文:0篇
    • 评论:27条
    每个人都是过客,每个人都有故事
    也许深夜往往是人们内心最为脆弱的时刻。孤独,绝望,失意,无奈......这些复杂沉重的情绪会随着黑夜的来临不再躲藏。
    最新评论