专访微软Greg Yang,构建神经网络的底层语言,探索AI的“万物理论”

本文是关于微软高级研究员Greg Yang的专访,他分享了从DJ到数学研究者的跨界人生,以及他参与的µTransfer项目,这是一种在小规模模型上找到超参数配置后,应用于大规模模型的方法,降低了大模型调参的不确定性。Greg还介绍了他的长期目标——建立Tensor Programs,一种描述神经网络架构的底层编程语言,旨在统一分析神经网络的函数和初始化配置。
摘要由CSDN通过智能技术生成

导读:近日,微软研究院团队联合OpenAI提出了Efficient Hyperparameter Tuning(µTransfer)的方法,能够在小规模预训练模型上寻找到合适的超参数后,按照一定的方法,在更大规模的模型上获得最优的超参配置,极大降低了大模型超参调整的不确定性。

为了进一步解读这一工作背后的意义,智源社区采访了论文一作、微软研究院高级研究员Greg Yang(杨格)。采访中,我们不仅了解了µTransfer的背景,以及项目背后更为远大的目标,也了解到了Greg本人奇特的跨界人生。

5f220dc71e52ba4d381a579600676707.png

图注:Greg Yang

01

从DJ到研究数学:在自由探索中对AI产生兴趣

1.在哈佛期间两度休学,寻找方向

出于对数学的兴趣,Greg一开始就进入了哈佛大学数学系。由于哈佛大学有着非常宽容的休学政策——学生可以随时离开校园,也可以随时回来——Greg下定决心,在读完大二后选择追求音乐之路。

307d0e9b4c7bccc157afc1e65816fe23.png

图注:Greg在哈佛大一时表演架子鼓

在一年半的时间中,他从生活的“仓鼠笼”中走出来,好好规划自己的人生。这段时间他可以尽情探索自己的兴趣。

90849e5475208ef921e15d8832983bc0.png

图注:成为DJ的Greg

Greg在这期间得出了以下结论:

  1. 他将致力于实现通用人工智能(AGI):能够制造一个比自己还要聪明的东西,并淘汰掉他自己,是一个“intellectually”极其激动的事情。

  2. 他对数学有着内在的激情:由于一系列可预测的课程、作业和竞赛等,他对学习和研究数学的热情变得麻木了。但这次休学让他恢复了往日对数学这一学科的热爱。

  3. 数学是我们现实的底层逻辑:它是一切科学和工程的基础语言(Foundation Language),而重大的突破,往往来自揭示问题背后的一些隐藏着的数学结构。即使是不怕数学本身,就能够提供足够的自信,来尝试解决困难的问题,提出新的点子。

休学一年半后,Greg回到哈佛,出版了自己的第一篇论文。之后他再次休学,完成阅读教科书等方面的事情。

在第二次休学期间,深度学习开始快速发展,他痴迷于研究神经图灵机,并借鉴了可微拓扑学中的思路,提出了“Lie Access Neural Turing Machine”,并发表在ICLR上。

同样在那段时期,他发现代数拓扑学和学习理论中的一个有趣的联系。例如,VC维(Vapnik–Chervonenkis Dimension)描述学习一个任务的困难程度的方法,但可以被一个和任务有关的拓扑空间中的“洞”的维度所捕捉到。这种联系可以帮助证明一些计算复杂度的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值