学习理论
1、基本概念
2、PAC理论
3、VC维
4、极大似然,最大后验概率,贝叶斯估计
5、模型评估与评价指标
6、模型诊断调参
二、PAC理论
概率近似正确(PAC)理论是从概率的角度来衡量模型的正确率,给出了PAC可辨识,样本复杂度界,误差上界。
偏差/方差
偏差和方差是机器学习中很重要的两个概念,在分析模型时对应于欠拟合和过拟合问题。
以回归问题为例,上图中左边为一个线性拟合,可以看出,拟合的程度不够(欠拟合),与真实样本的偏差较大,右边的图类似于插值曲线,基本上每个点都拟合的过好(过拟合),然而我们的训练集只是样本数真实分布的一个子集,并不代表所有的样本(测试集)都能拟合的很好,一般而言,由于右图模型复杂度较高,往往泛化能力不如简单的模型。而中间的图拟合的程度和模型的复杂度都不错,因此,机器学习中更倾向于中间的模型最优。
经验风险最小
经验风险最小一直以来都是我们构建目标函数的一个准则,以二分类为例,经验风险最小就是使得误判的样本数最少,对于数据集:
S = { x ( i ) , y ( i ) } , 0 ≤ i ≤ m , y ∈ { 0 , 1 } S=\{x^{(i)},y^{(i)}\},0\leq i \leq m ,y\in \{0,1\} S={
x(i),y(i)},0≤i≤m,y∈{
0,1}
其中,样本点 ( x ( i ) , y ( i ) ) (x^{(i)},y^{(i)}) (x(i),y(i))独立同分布。
假设,我们学习一个模型来进行分类:
h θ ( x ) = g ( θ T x ) g ( z ) = I { z ≥ 0 } , g ∈ { 0 , 1 } h_{\theta}(x)=g(\theta^Tx)\\ g(z)=I\{z\geq 0\},g \in \{0,1\} hθ(x)=g(θTx)g(z)=I{
z≥0},g∈{
0,1}
其中 h h h是一个线性函数, g g g是一个指示函数,这样我们就有了一个二分类器。
那么,训练误差即为:
ϵ ^ ( h θ ) = ϵ ^ S ( h θ ) = 1 m ∑ i = 1 m I { h θ ( x ( i ) ) ≠ y ( i ) } \hat{\epsilon}(h_{\theta})=\hat{\epsilon}_{S}(h_{\theta})=\frac{1}{m}\sum_{i=1}^{m}I\{h_{\theta}(x^{(i)})\neq y^{(i)}\} ϵ^(hθ)=ϵ^S(hθ)=m1i=1∑mI{
hθ(x(i))̸=y(i)}
经验风险最小化准则就是最小化训练误差:
θ ^ = a r g min θ ϵ ^ S ( h θ ) \hat{\theta}=arg\min_{\theta}\hat{\epsilon}_{S}(h_{\theta}) θ^=argθminϵ^S(hθ)
然而,我们发现如上目标函数非凸,一般无法直接优化,而且这样定义目标函数得到最好的模型在真实数据上并不一定测试误差就最小。为了解决优化的问题,采用对数损失,指数损失,Higne损失,线性损失来代替 0 ​ − ​ 1 0\!-\!1 0−1损失。
也就是说我们根据最小化经验损失,从 h θ h_{\theta} hθ的假设空间 H H H中学习我们的目标空间:
h ^ = a r g min h ∈ H ϵ ^ ( h ) \hat{h}=arg\min_{h\in H} \hat{\epsilon}(h) h^=argh∈Hminϵ^(h)
上式,只是我们在训练集上的最小损失,泛化到测试集:
ϵ ( h ) = P x , y ∼ D ( h ( x ) ≠ y ) \epsilon(h)=P_{x,y \sim D}(h(x)\neq y) ϵ(h)=Px,y∼D(h(x)̸=y)
也就是说 ϵ ^ \hat{\epsilon} ϵ^为训练集上的损失, ϵ \epsilon ϵ为泛化到测试集上的损失。当然,我们希望不学习测试数据就能学到测试集上泛化误差最小的 h ∗ h^{*} h∗是最好的(不切实际)。
Hoeffding不等式,联合上界,一致收敛
假设