今天看了 NeurIPS 2018 上的两篇文章,一篇是获得 best paper 的 Neural Ordinary Differential Equations (陈天奇的文章),一篇是获经典论文奖的 The Tradeoffs of Large Scale Learning。
The Tradeoffs of Large Scale Learning
Abstract
本文研究不同的近似优化算法对学习算法的影响。Small-scale learning problems 受到 approximation–estimation 的影响,Large-scale learning problems 受到优化算法计算复杂度的影响。
Motivation
计算复杂度在学习算法中的有重要的意义,但很少被提及。Valiant 强调一个问题是可学习的,如果一个算法能在多项式复杂度内解决它。但是这只是在统计意义上的解决。
本文发现近似优化算法完全可以满足学习要求,而且降低计算复杂度。
Approximate Optimization
Setup
优化算法优化的对象是
E ( f ) = ∫ l ( f ( x ) , y ) d P ( x , y ) = E [ l ( f ( x ) , y ) ] E(f)=\int l(f(x),y)dP(x,y)=E[l(f(x),y)] E(f)=∫l(f(x),y)dP(x,y)=E[l(f(x),y)]
也就是要求解
f ∗ = a r g m i n f E [ l ( y ^ , y ) ∣ x ] f^*=argmin_fE[l(\hat{y},y)|x] f∗=argminfE[l(y^,y)∣x]
尽管 P ( x , y ) P(x,y) P(x,y)未知,我们可以随机独立采样得到 n n n个数据来做训练数据,定义经验误差
E n ( f ) = 1 n ∑ i = 1 n l ( f ( x i ) , y i ) = E n [ l ( f ( x i ) , y i ) ] E_n(f)=\frac{1}{n}\sum_{i=1}^nl(f(x_i),y_i)=E_n[l(f(x_i),y_i)] En(f)=n1i=1∑nl(f(xi),yi)=En[l(f(xi),yi