Foundations of Machine Learning 2nd——第二章 PAC学习框架 后记

前言

这一小篇文章承接“Fundations of Machine learning 2nd”系列笔记的第二篇,本来想把PAC分两次写,后来发现第一次写的太多了,因此这篇文章的内容不是特别多~看这篇文章之前建议先读上半部分。

Generalities 一般性

这一节主要讨论了一些更为普遍的学习场景。

可确定性 VS 随机场景

大部分有监督学习场景下, D D D分布式定义在 X × Y X\times Y X×Y上的,训练集样本独立同分布于 D D D:
S = ( ( x 1 , y 1 ) , . . , ( x m , y m ) ) S=((x_1,y1),..,(x_m,y_m)) S=((x1,y1),..,(xm,ym))
我们要学习的就是找到一个具有最小的generalization error的映射 h ∈ H h\in H hH
R ( h ) = P ( x , y ) ∼ D [ h ( x ) ≠ y ] = E ( x , y ) ∼ D [ 1 h ( x ) ≠ y ] R(h) = \mathop{P}\limits_{(x,y)\sim D}[h(x)\neq y] = \mathop{E}\limits_{(x,y)\sim D}[1_{h(x)\neq y}] R(h)=(x,y)DP[h(x)=y]=(x,y)DE[1h(x)=y]
这种称为随机场景,标签的输出是一个关于输入的概率函数,输入样本的标签并不唯一。例如:如果根据身高体重的值来预测这个人是男是女,这个样本的标签就可以不唯一,有可能是男的,也有可能是女的。
把PAC-learning框架扩展到这一设定下,就称为“agnostic PAC-learning”

定义1 Agnostic PAC-learning

H H H是一个映射集, A A A是agnostic PAC-learning算法的条件是:如果存在一个多项式函数 p o l y ( ⋅ , ⋅ , ⋅ , ⋅ ) poly(·,·,·,·) poly(,,,),使得对于任意的 ϵ > 0 , δ > 0 \epsilon > 0, \delta > 0 ϵ>0,δ>0,对于 X × Y X\times Y X×Y上的所有分布 D D D,当样本量 m ≥ p o l y ( 1 / ϵ , 1 / δ , n , s i z e ( c ) ) m\geq poly(1/\epsilon,1/\delta,n,size(c)) mpoly(1/ϵ,1/δ,n,size(c))时,下式都成立:
P S ∼ D m [ R ( h S ) − min ⁡ h ∈ H R ( h ) ≤ ϵ ] ≥ 1 − δ \mathop{P}\limits_{S\sim D^m}[R(h_S)-\min\limits_{h\in H}R(h)\leq\epsilon]\geq1-\delta SDmP[R(hS)hHminR(h)ϵ]1δ
如果 A A A可以在 p o l y ( 1 / ϵ , 1 / δ , n ) poly(1/\epsilon,1/\delta,n) poly(1/ϵ,1/δ,n)的时间内运行的话,就是efficiently agnostic PAC-learning算法。

当一个样本的标签是唯一的,并且存在可计算的函数 f : X → Y f:X\rightarrow Y f:XY来确定标签,这种情况被称为可确定的(deterministic)。这时只在输入空间考虑分布 D D D就足够了。训练样本是从 D D D采样的 ( x 1 , . . . , x m ) (x_1,...,x_m) (x1,...,xm),标签是通过 f : y i = f ( x i ) f:y_i = f(x_i) f:yi=f(xi)获得的。

Bayes error and noise 贝叶斯误差和噪声

根据我们上面的定义,在确定的情况下,存在一个目标函数他的generalization error R ( h ) = 0 R(h)= 0 R(h)=0,而对于随机场景,存在一个映射具有最小的非零误差。

定义2 Bayes error

给定一个在 X × Y X\times Y X×Y上的分布 D D D,贝叶斯误差 R ∗ R^* R定义为可计算映射 h : X → Y h:X\rightarrow Y h:XY可以实现的最小误差:
R ∗ = inf ⁡ h , m e a s u r a b l e R ( h ) R^*=\inf\limits_{h, measurable}R(h) R=h,measurableinfR(h)
这样的映射成为“Bayes hypothesis”,贝叶斯映射,或者贝叶斯分类器。

显然,在可确定情况下 R ∗ = 0 R^*=0 R=0,随机情况下 R ∗ ≠ 0 R^*\neq 0 R=0
贝叶斯分类器也可以在条件概率下定义:
∀ x ∈ X , h B a y e s ( x ) = arg max ⁡ y ∈ { 0 , 1 } P [ y ∣ x ] \forall x\in X,\quad h_{Bayes}(x)=\argmax\limits_{y\in\{0,1\}}P[y|x] xX,hBayes(x)=y{0,1}argmaxP[yx]

h B a y e s 在 x ∈ X h_{Bayes}在x\in X hBayesxX上的平均损失就是 min ⁡ { P [ 0 ∣ x ] , P [ 1 ∣ x ] } \min\{P[0|x],P[1|x]\} min{P[0x],P[1x]},这也是最小可能损失。同时导出了noise的定义:

定义3 Noise

给定一个在 X × Y X\times Y X×Y上的分布 D D D,点 x ∈ X x\in X xX的noise定义如下:
n o i s e ( x ) = min ⁡ { P [ 1 ∣ x ] , P [ 0 ∣ x ] } noise(x)=\min\{P[1|x],P[0|x]\} noise(x)=min{P[1x],P[0x]}
(一个贝叶斯分类器在点 x x x上的误差)

E [ n o i s e ( x ) ] E[noise(x)] E[noise(x)]即为平均噪声。
平均噪声即为贝叶斯误差: E [ n o i s e ( x ) ] = R ∗ E[noise(x)]=R^* E[noise(x)]=R。他是学习任务的一个特征,用来表示困难程度。对于一个样本 x ∈ X x\in X xX,他的 n o i s e ( x ) noise(x) noise(x)接近 1 / 2 1/2 1/2时,就被认为是噪声点(noisy),学习起来十分困难,自然也会影响预测准确度。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
机器学习是计算机科学中的一个重要分支,旨在通过设计和分析算法,使计算机系统能够从数据中自动学习和提高,并对未见过的数据提出准确的预测。在机器学习中,数据是关键。该领域利用计算方法对大量数据进行处理和分析,以发现数据中的模式和趋势。通过对这些数据模式进行建模和预测,机器学习使计算机系统能够自动地改进自己的决策和表现。 “基础机器学习”(Foundations of Machine Learning)是机器学习领域中的一个重要概念。它涵盖了机器学习的基本原理和算法,包括如何构建、评估和优化机器学习模型。这些基础理论和方法对于开发和使用先进的机器学习系统至关重要。 在基础机器学习中,重要的概念包括监督学习、无监督学习、半监督学习和强化学习。监督学习是一种从已知的训练数据中构建模型的方法,用于对新数据进行预测。无监督学习是一种从未标记的数据中挖掘模式的方法,而半监督学习则是两者的结合。强化学习则是一种通过与环境交互来学习的方法,根据奖励信号调整模型。 此外,基础机器学习还包括模型评估和选择、特征选择和提取、优化方法等。这些技术和方法使机器学习更加健壮和可靠,并为开发新的机器学习算法提供基础。 总的来说,基础机器学习是机器学习领域的核心概念之一,对于发展高级机器学习和人工智能系统至关重要。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值