【读书笔记】NeurIPS2018的两篇文章:The Tradeoffs of Large Scale Learning和Neural Ordinary Differential Equations

本文是NeurIPS 2018的读书笔记,关注两篇获奖文章:探讨大规模学习的优化误差与权衡,以及陈天奇提出的神经普通微分方程。大规模学习中,优化算法选择对误差有显著影响,而连续深度学习模型如Neural ODE则提供了一种恒定内存消耗和精确度的解决方案。
摘要由CSDN通过智能技术生成

今天看了 NeurIPS 2018 上的两篇文章,一篇是获得 best paper 的 Neural Ordinary Differential Equations (陈天奇的文章),一篇是获经典论文奖的 The Tradeoffs of Large Scale Learning。

The Tradeoffs of Large Scale Learning

Bottou, Léon, and Olivier Bousquet. “The tradeoffs of large scale learning.” Advances in neural information processing systems. 2008.

Abstract

本文研究不同的近似优化算法对学习算法的影响。Small-scale learning problems 受到 approximation–estimation 的影响,Large-scale learning problems 受到优化算法计算复杂度的影响。

Motivation

计算复杂度在学习算法中的有重要的意义,但很少被提及。Valiant 强调一个问题是可学习的,如果一个算法能在多项式复杂度内解决它。但是这只是在统计意义上的解决。
本文发现近似优化算法完全可以满足学习要求,而且降低计算复杂度。

Approximate Optimization

Setup

优化算法优化的对象是
E ( f ) = ∫ l ( f ( x ) , y ) d P ( x , y ) = E [ l ( f ( x ) , y ) ] E(f)=\int l(f(x),y)dP(x,y)=E[l(f(x),y)] E(f)=l(f(x),y)dP(x,y)=E[l(f(x),y)]

也就是要求解
f ∗ = a r g m i n f E [ l ( y ^ , y ) ∣ x ] f^*=argmin_fE[l(\hat{y},y)|x] f=argminfE[l(y^,y)x]

尽管 P ( x , y ) P(x,y) P(x,y)未知,我们可以随机独立采样得到 n n n个数据来做训练数据,定义经验误差
E n ( f ) = 1 n ∑ i = 1 n l ( f ( x i ) , y i ) = E n [ l ( f ( x i ) , y i ) ] E_n(f)=\frac{1}{n}\sum_{i=1}^nl(f(x_i),y_i)=E_n[l(f(x_i),y_i)] En(f)=n1i=1nl(f(xi),yi)=En[l(f(xi),yi

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值