活动报名|LeCun学生分享,Transformer无需归一化也能高效稳定训练

图片

报告主题:Transformer无需归一化也能高效稳定训练

报告日期:04月02日(周三)10:30-11:30

报告要点:

近年来,归一化层在神经网络中得到了广泛应用,被认为是提高收敛速度和稳定性的重要组成部分。然而,本文提出了一种新的方法,表明即使在不使用归一化层的情况下,Transformer 依然能够实现相同或更优的性能。研究团队提出了一种名为 Dynamic Tanh (DyT) 的方法用于取代传统的归一化层。DyT 在保持模型稳定性和加速收敛的同时,实验结果显示,采用 DyT 的 Transformer 在视觉识别、语言建模和自监督学习等多项任务中的表现与传统归一化方法相当,挑战了深度学习中“归一化层不可或缺”的固有观念。

报告嘉宾:

朱家晨目前是纽约大学计算机系的博士生,师从 Yann LeCun 教授。他的研究目标是通过创新的自监督学习方法和神经网络架构,推动人工智能在视觉理解的发展。

他的研究兴趣主要包括视觉表示学习、视觉语言模型、自监督学习以及神经网络架构的优化。更多信息请访问他的个人主页:https://jiachenzhu.github.io。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值