2023.10.23学习-计算学习理论1

2023.10.23学习-计算学习理论1

如何刻划“学习”的过程?

考虑二分类问题,独立同分布样本(训练集):
D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } , y i ∈ γ = { − 1 , + 1 } D=\lbrace(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\rbrace,y_i\in \gamma = \lbrace-1,+1\rbrace D={(x1,y1),(x2,y2),...,(xm,ym)},yiγ={1,+1}
令h为 x 到 γ 的一个映射,则

泛化误差:分类器的期望误差
E ( h ; D ) = P x ∼ D ( h ( x ) ≠ y ) E(h;\cal D)=P_{x\sim D}(h(x)\neq y) E(h;D)=PxD(h(x)=y)
经验误差:分类器在给定样例集上的平均误差
E ^ ( h ; D ) = 1 m ∑ i = 1 m I ( h ( x i ) ≠ y i ) \widehat{E}(h;\cal {D}\it )=\frac 1 m \sum \limits^m\limits_{i=1}\Bbb I(h(x_i)\neq y_i) E (h;D)=m1i=1mI(h(xi)=yi)
误差参数ε:

ε为E(h)的上限,E(h) <= ε 即表示预先设定学得的模型应满足的误差要求。

一致性

若 h 在数据集 D(训练集)上的经验误差为0,则称 h 与 D 一致。

不合(disagreement)

对于任意两个映射h1、h2,通过“不合”度量它们之间的差别(两个模型预测x不相等的概率):
d ( h 1 , h 2 ) = P x ∼ D ( h 1 ( x ) ≠ h 2 ( x ) ) d(h_1,h_2)=P_{x\sim \cal D}(h_1(x)\neq h_2(x)) d(h1,h2)=PxD(h1(x)=h2(x))

概念(concept)

从样本空间 X 到标记空间 y 的映射,决定x的真实标记y;若对任何样例 (x, y) 均有 c(x) = y 成立(即均符合真实情况),则称c为目标概念

假设空间(hypothesis space)

给定学习算法L,它所考虑的所有可能概念的集合为假设空间,用 H 表示。(H为该算法考虑的所有分类映射h的集合)

学习器学习的过程可以视为 L 在 H 中搜索的过程。

可分的(separable)

目标概念 c ∈ H,即 H 中存在一种假设h能将所有示例正确分开(与真实标记一致)。

不可分的(non-separable)

H 中不存在任何假设h能将所有示例正确分开。

概率近似正确(PAC: Probably Approximately Correct)

以较大概率学得误差满足预设上限E(h) <= ε)的模型

较大概率:设定置信度δ(常用0.05),要求
P ( E ( h ) ≤ ϵ ) ≥ 1 − δ P(E(h) \leq \epsilon) \geq 1-\delta P(E(h)ϵ)1δ
则称学习算法L能从假设空间 H 中PAC辨识概念类 C。

PAC可学习(PAC Learnable)

m为从分布D中独立同分布采样得到的样例数目,若使得任何m满足多项式函数
m ≥ p o l y ( 1 / ϵ , 1 / δ , s i z e ( x ) , s i z e ( c ) ) m \geq poly(1/ \epsilon,1/ \delta,size(x),size(c)) mpoly(1/ϵ,1/δ,size(x),size(c))
学习算法L能从假设空间H中PAC辨识概念类C,

则称概念类 C 对假设空间 H 是PAC可学习的,简称概念类 C 是PAC可学习的。

这个定义说明在PAC可学习的要求下,样例数目m与误差ε、置信度δ、数据复杂度size(x)、目标概念的复杂度size©都有关。

若L的运行时间也是多项式函数 poly(1/ε, 1/δ, size(x), size©),则称概念类 C 是高效PAC可学习的。

样本复杂度(Sample Complexity):

满足PAC学习算法L所需的
m ≥ p o l y ( 1 / ϵ , 1 / δ , s i z e ( x ) , s i z e ( c ) ) m \geq poly(1/ \epsilon,1/ \delta,size(x),size(c)) mpoly(1/ϵ,1/δ,size(x),size(c))
中最小的m,称为学习算法 L 的样本复杂度。

假定学习算法L处理每个样本的时间为常数,则L的时间复杂度等价于其样本复杂度。

假设空间复杂度

H越大,其包含任意目标概念的可能性也越大,但找到从中找到某个目标概念的难度也越大。

H有限时,称为“有限假设空间”,否则为“无限假设空间‘'。

假设空间的复杂度是影响学习任务难度的重要因素之一。

PAC学习刻划了机器学习的能力,解释了需要多少样例才能获得较好的模型,它和误差参数、置信度、样本复杂度、假设空间复杂度有关。

有限假设空间

(1)可分情况:假设空间 H 中存在目标概念 c。

需要多少样例(m)才能学得目标概念 c 的有效近似?
m ≥ 1 ϵ ( ln ⁡ ∣ H ∣ + ln ⁡ 1 δ ) m \geq \frac 1 \epsilon(\ln| \cal H|+\ln\frac 1 \delta) mϵ1(lnH+lnδ1)
在可分情况下,有限假设空间 H 都是PAC可学习的,输出假设 h 的泛化误差随样例数目的增多而收敛至0。

(2)不可分情况:

在有限假设集的情况下,当样本大小m足够大时,h的经验误差是泛化误差很好的近似,可以由定理12.1得出:
P ( ∣ E ( h ) − E ^ ( h ) ∣ ≤ ln ⁡ ∣ H ∣ + ln ⁡ ( 2 / δ ) 2 m ) P(|E(h)-\widehat{E}(h)| \leq \sqrt{\frac {\ln|\cal H|+\ln (2/\delta)} {2m}}) P(E(h)E (h)2mlnH+ln(2/δ) )
所以,给出了一种通用的学习原则:

经验风险最小化(ERM):若h满足
E ^ ( h ) = min ⁡ h ′ ∈ H E ^ ( h ′ ) \widehat{E}(h) = \mathop{\min}_{h'\in \cal H}\widehat{E}(h') E (h)=minhHE (h)
则称L为满足经验风险最小化原则的算法。

在 c ∉ H 时,可以把PAC学习的定义做如下推广:

不可知PAC可学习(agnostic PAC Learnable):

m为从分布D中独立同分布采样得到的样例数目,若使得任何m满足多项式函数
m ≥ p o l y ( 1 / ϵ , 1 / δ , s i z e ( x ) , s i z e ( c ) ) m \geq poly(1/ \epsilon,1/ \delta,size(x),size(c)) mpoly(1/ϵ,1/δ,size(x),size(c))
学习算法L能从假设空间 H 中输出满足下式的假设 h:
P ( E ( h ) − min ⁡ h ′ ∈ H E ( h ′ ) ≤ ϵ ) ≥ 1 − δ P(E(h)-\mathop{\min}_{h' \in H}E(h')\leq \epsilon) \geq 1-\delta P(E(h)minhHE(h)ϵ)1δ
则称假设空间 H 是不可知PAC可学习的。

有限假设集是不可知PAC可学习的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值