NIPS 2017 腾讯AI Lab入选8篇论文,含1篇Oral

本文来自AI Lab微信号:tencent_ailab,将详解其入选NIPS的八篇论文,及对机器学习未来研究方向的一点思考。




被誉为神经计算和机器学习领域两大顶级会议之一的NIPS(另一个为ICML)近日揭晓收录论文名单,腾讯AI Lab共有八篇论文入选,位居国内企业前列,其中一篇被选做口头报告(Oral),该类论文仅占总录取数的1.2%(40/3248),我们将在下文解析,也邀请大家在NIPS的现场跟我们进一步交流与讨论。


欢迎大家留言评论:你觉得今年NIPS会有哪些亮点?

 

插播一下,腾讯AI Lab今年还在其他几大顶级会议上斩获颇丰,包括机器学习领域另一顶会ICML(四篇入选)、计算机视觉领域顶会CVPR(六篇入选),以及自然语言处理领域顶会ACL(三篇入选)等。

 

本届 NIPS 共收到3240篇论文投稿,创历年新高,其中678篇被选为大会论文,录用比例20.9%。其中有40篇口头报告(Oral)和112篇亮点报告(Spotlight)。会议门票也在开售不到一小时内售罄,参会人数预计将超过去年的5000人,火爆程度可见一斑。


640?wx_fmt=png


机 器 学 习 未 来 研 究 的 一 点 思 考


NIPS的内容涵盖认知科学、心理学、计算机视觉、统计语言学和信息论等领域,可由此窥见机器学习最为前沿和备受关注的研究领域。而在思考未来方向时,我们认为研究者们可追本溯源,沉下心来关注一些本质问题。

 

比如机器学习研究方向之一,是探索如何在特定知识表达体系下有效利用不同资源,这里的资源包括计算资源(时间复杂性)和数据资源(样本复杂性)。这个方向上的主流思路是使用基于深度网络的模型,但近几年的研究更较偏heuristic和empirical,未来则更可能会是在深度模型的知识表达体系下进行探索。深度模型带来的最大挑战是非凸性,这从本质上有别于传统的计算与统计理论,也值得研究者们产生一些全新的思考。

 

深度学习是目前毋庸置疑的大趋势,近几年来此类研究空前火热,如果我们回到初心,将部分不真实的内容逐步澄清,能促进研究走上良性发展之路。

 

腾 讯 AI Lab 八 篇 入 选 论 文 详 解

*论文按标题英文首字母排序


Oral 论文1. 去中心化算法能否比中心化算法效果更佳-一个关于去中心化的随机梯度方法研究

Can Decentralized Algorithms Outperform Centralized Algorithms? A Case Study for Decentralized Parallel Stochastic Gradient Descent


本论文与苏黎世联邦理工学院、加州大学戴维斯分校和IBM合作完成。并行优化和计算效率是从大数据发掘智能的核心竞争力。为了提高效率,大多数的并行优化算法和平台集中在研究中心化的算法,比如Tensorflow、CNTK及MXNET。中心化的算法的主要瓶颈是上百个计算结点与(多个)中心节点之间的通讯代价和拥堵,严重的受制于网络的带宽和延迟。而这篇文章里则考虑去中心化的思路以减少通讯的代价。

 

尽管在去中心化的方法在控制领域已经有所应用和研究,但是考虑的是在特殊的去中心的拓扑结构的情况下,如何交换融合信息。而且已有的研究都没有表明如果二者都能用的情况下去中心的算法相对对于中心化的算法会有任何优势。这篇文章的主要贡献在于研究了一个去中心化的随机梯度方法,并且第一次从理论上证明了去中心化的算法可以比对应的中心化算法更加高效。同时本文通过大量的在深度学习上的实验和比较验证了作者理论。

 

这个发现将会打开未来大家对并行算法的思路,给并行系统带来更多的灵活性和自由度。我们相信将会对未来的机器学习平台和算法开发产生较大影响。

* 本文入选NIPS 2017 口头报告(Oral),论文占比为40/3248。


2. 线性动态系统上的高效优化及其在聚类和稀疏编码问题上的应用

Efficient Optimization for Linear Dynamical Systems with Applications to Clustering and Sparse Coding


本论文与清华大学和澳大利亚国立大学合作完成,其中的线性动态系统模型(LDS)是用于时空数据建模的一种重要的工具。尽管已有的理论方法非常丰富,但利用LDS进行时空数据的分析并不简单,这主要是因为LDS的参数并不是在欧氏空间,故传统的机器学习方法不能直接采用。


在这篇论文中,作者提出了一种高效的投影梯度下降法去极小化一个泛化的损失函数,并利用该方法同时解决了LDS空间上的聚类和稀疏编码问题。为此,作者首先给出LDS参数的一种新型的典范表示,然后巧妙地将目标函数梯度投影到LDS空间来实现梯度回传。与以往的方法相比,这篇文章中的方法不需要对LDS模型和优化过程加入任何的近似。充分的实验结果证明了这篇文章中的方法在收敛性和最终分类精度上优于目前最好同类方法。


3. 通过斯坦因引理估计高维非高斯多指数模型

Estimating High-dimensional Non-Gaussian Multiple Index Models via Stein’s Lemma


本论文与普林斯顿大学和乔治亚理工大学合作完成,作者探讨了在高维非高斯设置中估计半参数多指数模型的参数化组分的方法。文中的估计器使用了基于二阶斯坦因引理的分数函数,而且不需要文献中做出的高斯或椭圆对称性假设。内部机构的研究表明:即使分数函数或响应变量是重尾(heavy-tailed)分布的,文中的估计器也能实现接近最优的统计收敛率。最后,作者利用了一个数据驱动的截断参数,并基于该参数确定了所需的集中度(concentration)结果。作者通过模拟实验对该理论进行了验证,对这篇文章中的理论结果进行了补充。


4. 基于几何梯度下降方法的复合凸函数最小化

Geometric Descent Method for Convex Composite Minimization


本论文与香港中文大学和加利福尼亚大学戴维斯分校合作完成,主要扩展了Bubeck, Lee和Singh近期提出的处理非光滑复合强凸函数优化问题的几何梯度下降方法。文中提出“几何邻近梯度下降法”算法——能够以线性速率收敛,因此能相比其他一阶优化方法达到最优的收敛速率。最后,在带有弹性网络正则化的线性回归和逻辑回归上的数值实验结果表明,新提出的几何邻近梯度下降法优于Nesterov's加速的邻近梯度下降法,尤其面对病态问题时优势更大。


5. 基于混合秩矩阵近似的协同过滤

Mixture-Rank Matrix Approximation for Collaborative Filtering


本论文与复旦大学和IBM中国合作完成,关于低秩矩阵近似方法(LRMA)现今在协同过滤问题上取得了优异的精确度。在现有的低秩矩阵近似方法中,用户或物品特征矩阵的秩通常是固定的,即所有的用户或物品都用同样的秩来近似刻画。但本文研究表明,秩不相同的子矩阵能同时存在于同一个用户-物品评分矩阵中,这样用固定秩的矩阵近似方法无法完美地刻画评分矩阵的内部结构,因此会导致较差的推荐精确度。


这篇论文中提出了一种混合秩矩阵近似方法(MRMA),用不同低秩矩阵近似的混合模型来刻画用户-物品评分矩阵。同时,这篇文章还提出了一种利用迭代条件模式的领先算法用于处理MRMA中的非凸优化问题。最后,在MovieLens系统和Netflix数据集上的推荐实验表明,MRMA能够在推荐精确度上超过六种代表性的基于LRMA的协同过滤方法。


6. 凸差近似牛顿算法在非凸稀疏学习中的二次收敛

On Quadratic Convergence of DC Proximal Newton Algorithm in Nonconvex Sparse Learning


为求解高维的非凸正则化稀疏学习问题,我们提出了一种凸差(difference of convex/DC)近似牛顿算法。我们提出的算法将近似牛顿算法与基于凸差规划的多阶段凸松弛法(multi-stage convex relaxation)结合到了一起,从而在实现了强计算能力的同时保证了统计性。具体来说,具体来说,通过利用稀疏建模结构/假设的复杂特征(即局部受限的强凸性和 Hessian 平滑度),我们证明在凸松弛的每个阶段内,我们提出的算法都能实现(局部)二次收敛,并最终能在仅少数几次凸松弛之后得到具有最优统计特性的稀疏近似局部最优解。我们也提供了支持我们的理论的数值实验。

 

7. 用于稀疏学习的同伦参数单纯形方法

Parametric Simplex Method for Sparse Learning


本论文与普林斯顿大学、乔治亚理工大学和腾讯AI实验室合作完成,作者关注了一种可形式化为线性规划问题的广义类别的稀疏学习——这类线性规划问题可以使用一个正则化因子进行参数化,且作者也通过参数单纯形方法(parametric simplex method/PSM)解决了这个问题。相对于其它相竞争的方法,这篇文章中的参数单纯形方法具有显著的优势:(1)PSM 可以自然地为正则化参数的所有值获取完整的解决路径;(2)PSM 提供了一种高精度的对偶证书停止(dual certificate stopping )标准;(3)PSM 只需非常少的迭代次数就能得到稀疏解,而且该解的稀疏性能显著降低每次迭代的计算成本。


特别需要指出,这篇文章展示了 PSM 相对于多种稀疏学习方法的优越性,其中包括用于稀疏线性回归的 Dantzig 选择器、用于稀疏稳健线性回归的 LAD-Lasso、用于稀疏精度矩阵估计的 CLIME、稀疏差分网络估计和稀疏线性规划判别(LPD )分析。然后作者提供了能保证 PSM 总是输出稀疏解的充分条件,使其计算性能可以得到显著的提升。作者也提供了严密充分的数值实验,演示证明了 PSM 方法的突出表现。

 

8. 预测未来的场景分割和物体运动

Predicting Scene Parsing and Motion Dynamics in the Future

 

本论文与新加坡国立大学、Adobe研究室和360人工智能研究院合作完成。无人车和机器人这样的对智能系统中,预期未来对提前计划及决策非常重要。文中预测未来的场景分割和物体运动帮助智能系统更好地理解视觉环境,因为场景分割能提供像素级语义分割 (即何种物体在何处会出现),物体运动信息能提供像素级运动状态(即物体未来会如何移动)。本文提出了一种全新的方法来预测未来的未观测到的视频场景分割和物体运动。用历史信息(过去的视频帧以及对应的场景分割结果)作为输入,文章中的新模型能够预测未来任意帧的场景分割和物体运动。


更重要的是,这篇文章中的模型优于其他分开预测分割和运动的方法,因为文中联合处理这两个预测问题以及充分利用了它们的互补关系。据内部统计,文中的方法是第一个学习同时预测未来场景分割和物体运动的方法。在大规模Cityscape数据集上的实验表明,本文的模型相比精心设计的基线方法,能获得显著更好的分割和运动预测结果。另外,这篇论文也展示了如何用机构内部的模型预测汽车转向角,获得的优秀结果进一步证实了该新模型学习隐含变量的能力。


一 分 钟 数 读 NIPS


NIPS全称为Annual Conference and Workshop on Neural Information Processing Systems,于1986 年在由加州理工学院和贝尔实验室组织的Snowbird 神经网络计算年度闭门论坛上首次提出。会议固定在每年12月举行。今年是第 31 届,将于 12 月 4 日到 9 日在美国西岸加州南部的长滩市(Long Beach)举办。


计算机学科由于成果更新迅速,更愿意通过会议优先发表成果,因此该类顶级会议大多比期刊更具权威性与影响力。NIPS和ICML是机器学习领域最受认可的两大顶会,是中国计算机学会CCF推荐的A类会议及Google学术指标前五名。(见如下)


640?wx_fmt=png 640?wx_fmt=png





  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 随机梯度下降算法可以参考著名的论文 "Stochastic Gradient Descent" (SGD)。该论文由 Léon Bottou, Yoshua Bengio, and Patrick Haffner在 1998年发表在 "Proceedings of the International Conference on Neural Information Processing Systems" (NIPS) 上。 ### 回答2: 随机梯度下降(Stochastic Gradient Descent, SGD)是一种常用的优化算法,广泛应用于机器学习和深度学习领域。 在大规模数据集上应用随机梯度下降的最早的参考文献是Bottou等人在2010年发表的论文《Large-Scale Machine Learning with Stochastic Gradient Descent》。这论文介绍了使用随机梯度下降算法优化大规模机器学习问题的技巧和方法。 随后,Bottou等人在2012年的论文《Stochastic Gradient Descent Tricks》中进一步扩展和改进了随机梯度下降算法,并提出了一些在实践中可行的技巧,如学习率衰减和模型参数初始化等。 除了上述两经典论文外,还有很多其他的参考文献探讨了随机梯度下降算法的应用和改进。例如,Duchi等人在2011年的论文《Adaptive Subgradient Methods for Online Learning and Stochastic Optimization》提出了AdaGrad算法,用于自适应地调整学习率;Zhang等人在2013年的论文《Towards convergence analysis for practical stochastic gradient descent》对随机梯度下降的收敛性进行了理论分析。 总的来说,随机梯度下降是一个非常活跃的研究领域,有很多相关的参考文献可供参考。除了上述提到的几经典论文外,还有很多其他的研究成果值得关注。对于初学者来说,可以从上述论文入手,逐渐深入研究和了解相关的内容。 ### 回答3: 随机梯度下降(SGD)是一种优化算法,主要用于对模型参数进行更新。它在机器学习和深度学习等领域得到了广泛应用,并有相关的研究文献支持。 其中一经典的参考文献是由Bottou等人于1998年发表在《Journal of Computational Biology》上的文章《Online Learning and Stochastic Approximations》。在这文献中,作者提出了随机梯度下降算法,并研究了它在机器学习中的应用。 在这文献中,作者讨论了随机梯度下降算法的基本原理,并证明了算法具有收敛性和稳定性。他们还介绍了一些优化的技巧和策略,如学习率的选择、参数初始化等。此外,他们还将随机梯度下降与批量梯度下降进行了比较,分析了它们在时间和空间复杂度上的差异。 除了这经典的文献之外,随机梯度下降还有很多相关的文献可以参考。例如,LeCun等人在2012年发表在《Journal of Machine Learning Research》上的文章《Efficient BackProp》中介绍了在深度学习中应用随机梯度下降的方法。这些文献对于理解和应用随机梯度下降算法都具有重要的参考价值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值