【读书笔记】NeurIPS2018的两篇文章：The Tradeoffs of Large Scale Learning和Neural Ordinary Differential Equations

最新推荐文章于 2023-01-05 20:21:56 发布

SrdLaplaceGua

最新推荐文章于 2023-01-05 20:21:56 发布

阅读量2.1k

点赞数 3

分类专栏：读书笔记机器学习文章标签： nips neuarlps 陈天奇 best paper 笔记

本文链接：https://blog.csdn.net/SrdLaplace/article/details/84852069

版权

本文是NeurIPS 2018的读书笔记，关注两篇获奖文章：探讨大规模学习的优化误差与权衡，以及陈天奇提出的神经普通微分方程。大规模学习中，优化算法选择对误差有显著影响，而连续深度学习模型如Neural ODE则提供了一种恒定内存消耗和精确度的解决方案。

摘要由CSDN通过智能技术生成

今天看了 NeurIPS 2018 上的两篇文章，一篇是获得 best paper 的 Neural Ordinary Differential Equations （陈天奇的文章），一篇是获经典论文奖的 The Tradeoffs of Large Scale Learning。

The Tradeoffs of Large Scale Learning

本文研究不同的近似优化算法对学习算法的影响。Small-scale learning problems 受到 approximation–estimation 的影响，Large-scale learning problems 受到优化算法计算复杂度的影响。

计算复杂度在学习算法中的有重要的意义，但很少被提及。Valiant 强调一个问题是可学习的，如果一个算法能在多项式复杂度内解决它。但是这只是在统计意义上的解决。
本文发现近似优化算法完全可以满足学习要求，而且降低计算复杂度。

优化算法优化的对象是
$E(f)=\int l(f(x),y)dP(x,y)=E[l(f(x),y)]$

也就是要求解
$f^*=argmin_fE[l(\hat{y},y)|x]$

尽管 $P (x, y)$ 未知，我们可以随机独立采样得到 $n$ 个数据来做训练数据，定义经验误差
$E_n(f)=\frac{1}{n}\sum_{i=1}^nl(f(x_i),y_i)=E_n[l(f(x_i),y_i)]$

关注

专栏目录