前言
本系列是总结自纽约大学库朗所的知名课程,机器学习基础。
课程链接
Foundations of Machine learning(课本)
本章用基本定义
- 假设集(hypothesis set) H H H: 将特征X映射到标签集合Y的函数集合。其中假设 h ∈ H h\in H h∈H,并用h(x)表示我们对样本标签的预测,在确定情况下,这是一个数值,在非确定情况下,这是一个概率。
- 概念类(concept set) C C C:概念c指的是一个从X到Y的映射( X → Y X\to Y X→Y),而概念类C指的则是我们可能想要学习的概念构成的集合。
- 一致与不一致(consistent and inconsistent): 假设集包含了待学习的概念即为一致,否则为不一致。
- 泛化误差(generalization error) R R R: R ( h ) = P r [ h ( x ) ≠ C ( x ) ] = E x ∼ D [ l h ( x ) ≠ C ( x ) ] R(h)=Pr[h(x)\neq C(x)]=\mathop{E}\limits_{x\sim D}[l_{h(x)\neq C(x)}] R(h)=Pr[h(x)=C(x)]=x∼DE[lh(x)=C(x)]
( h ∈ H h\in H h∈H, c ∈ C c\in C c∈C,潜在分布 D D D) - 经验误差(empirical error) R ^ \hat R R^: R ^ ( h ) = 1 m ∑ i = 1 m l h ( x ) ≠ C ( x ) \hat R(h)=\frac{1}{m}\sum_{i=1}^{m}l_{h(x)\neq C(x)} R^(h)=m1∑i=1mlh(x)=C(x)。m为样本集容量。
- 贝叶斯误差(Bayes error): R ∗ = i n f h R ( h ) R^*=\mathop{inf}\limits_{h}R(h) R∗=hinfR(h)(给定h的下界)
- 噪音(noise):给定一个在X*Y上的分布D,样本点x的噪音定义为:
n o i s e ( x ) = m i n { p r [ 1 ∣ x ] , p r [ 0 ∣ x ] } noise(x)=min \left\{pr[1|x],pr[0|x]\right\} noise(x)=min{ pr[1∣x],pr[0∣x]}
平均噪声 n o i s e = E [ n o i s e ( x ) ] = R ∗ noise=E[noise(x)]=R^* noise=E[noise(x)]=R∗–可以用来衡量学习任务的难易程度。 - 概率近似正确(Probably Approximately Correct(PAC)):通过衡量样本复杂度和算法所用的时间以及空间复杂度来定义可学习的概念类。
- PAC可学习(PAC-learnable): 如果存在一个算法A,对于任意属于概念集C的目标概念c,并且样本规模 m ≥ p o l y ( 1 ε , 1 σ , n , s i z e ( c ) ) m\geq poly(\frac{1}{\varepsilon},\frac{1}{\sigma},n,size(c)) m≥poly(ε1,σ1,n,size(c))的条件下(poly-多项式 ε , σ > 0 \varepsilon,\sigma > 0 ε,σ>0)
P r [ R ( h s ) ≤ ε ] ≥ 1 − σ Pr[R(h_s)\leq\varepsilon]\geq 1-\sigma Pr[R(hs)≤ε]≥1−σ
则我们称概念类C是PAC可学习的,算法A为PAC学习算法。 - 泛化界(generalization bound): R ( h s ) R(h_s) R(hs)上界,我们一般用 σ \sigma σ和m进行表示, h s h_s hs表示的是在样本集s上的指定假设。
本章数学公式
Hoeffding不等式
令 X 1 , . . . . X m X_1,....X_m