马腾宇：高效、可靠、可理解的深度学习

最新推荐文章于 2024-05-28 09:30:13 发布

Robin.ly

最新推荐文章于 2024-05-28 09:30:13 发布

阅读量1.6k

点赞数 1

文章标签：算法人工智能机器学习深度学习大数据

本文链接：https://blog.csdn.net/RobinlyChannel/article/details/104568177

版权

????点击上方蓝字星标“Robinly”，及时获取更多重磅AI访谈

Robin.ly 是立足硅谷的视频内容平台，服务全球工程师和研究人员，通过与知名人工智能科学家、创业者、投资人和领导者的深度对话和现场交流活动，传播行业动态和商业技能，打造人才全方位竞争力。

毕业于清华 “姚班” 和普利斯顿大学的马腾宇是 AI 学界备受瞩目的青年翘楚。他目前在斯坦福大学计算机科学系与统计学系担任助理教授，专注于机器学习理论和算法研究，涉及非凸优化、深度学习、强化学习、表征学习等领域。马腾宇在 2018 年获得 ACM 最佳博士论文荣誉提名，并获得 COLT 2018 最佳论文奖和 NIPS 2016 最佳学生论文奖。

在本期 Robin.ly 独家专访中，马腾宇分享了他在 NeurIPS 2019 大会发表的论文亮点、ACM 获奖博士论文背后的研究工作、以及对 AI 未来研究方向的展望。

以下为完整访谈实录，点击“阅读原文”获取英文实录。

NeurIPS 2019 的论文亮点

Margaret Laffan（Robin.ly 主持人）: 马博士，能跟我们介绍一下你目前的研究工作以及你在这次 NeurIPS 2019 发表的五篇论文吗？

马腾宇：

我目前的研究重点是机器学习理论，尤其是深度学习理论，并致力于将理论知识转化为实际应用。在过去的两年中，我也一直在探索新的深度强化研究（Deep Reinforcement）。

这次 NeurIPS 大会接收的5篇论文中，有几篇探讨了深度学习算法的工作原理，以及如何利用理论研究改进算法的性能。

其中一篇名为 “Data-dependent Sample Complexity of Deep Neural Networks via Lipschitz Augmentation” 的论文重点介绍了为什么在存在大量参数的情况下，深度学习算法仍然可以泛化到从未见过的实例。这是目前深度学习领域的一个重要的开放研究方向，之前的一些常规理论在这些情况下并不适用。还有两篇论文是关于如何更快地训练算法以更好地进行泛化：一篇论文讨论了调整算法中学习速率/步长对泛化的重要性；另一篇是关于正则化 (Regularization) 的重要性和如何优化。

马腾宇博士（右）在NeurIPS 2019会场接受Robin.ly专访

另外一篇题为 “Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss” 的论文也特别值得一提。这篇文章是研究如何针对不均衡的数据集，利用理论知识来设计实用算法，以改进生活中实际应用。业界的许多数据集不如我们常用的基准数据集（如 ImageNet、CIFAR）那样均衡 -- 在某些情况下数据量很大，而另一些罕见低频事件的数据则少的可怜。以无人车为例，遇到鹿横穿马路的数据非常少，但这种情况的安全隐患很大。我们有必要让算法在此类涉及到安全的关键事件上有良好的表现，确保算法不仅适用于常见事件，也适用于罕见事件。

当前的总体解决思路是设计正则化方法（Regularization）以提高对罕见事件的泛化能力。现有工具重新采样和优化的方法能够解决罕见事件的数据训练问题，但是这些结果会导致过度拟合，无法很好地泛化。我们这项工作就在试图解决这个问题。我们成功地改进了一些先前的简化算法，并在罕见事件的泛化结果上取得了明显的进步。

ACM 获奖论文：非凸优化研究

Margaret Laffan: 你的博士论文获得了 ACM 荣誉提名奖，能分享一下其中最重要的贡献吗？

马腾宇：

我的博士论文 “Non-convex Optimization for Machine Learning: Design, Analysis, and Understanding” 主要关注的是非凸优化研究。在 2012 - 2013年我刚开始读博士的时候，深度学习新一轮的浪潮才刚刚兴起，我们开始意识到深度学习会是下一个大趋势。

理解深度学习算法原理的瓶颈之一是如何优化损失函数（Loss Function），使其变得非凸。但是大多数现有的优化理论都将重点放在优化凸函数上，这不一定适用于深度学习。这项研究的目的就是了解为何我们可以实现非凸函数的优化 -- 人们通常认为这是一个非常棘手的问题。

我在论文中还描述了在实际应用中损失函数的不同特征。我们针对这些特征可以相应的设计新算法或改进现有算法，而不仅仅局限于凸函数优化。除此之外，我们还分析了非凸模型的可解释性。对线性模型的解释相对容易，但是对于非线性模型和非凸模型，解释起来就比较困难。因此，论文的第二部分是关于如何在自然语言处理领域（NLP）理解和解释这些非凸模型。