Talk|OSU汪博石:Transformer模型能否进行隐式的推理?关于Grokking和泛化的深入探索

本期为TechBeat人工智能社区第609期线上Talk。

北京时间7月17日(周三)20:00,俄亥俄州立大学博士生—汪博石的Talk已经准时在TechBeat人工智能社区开播!

他与大家分享的主题是: “Transformer模型能否进行隐式的推理?关于Grokking和泛化的深入探索”,在本次Talk中,他系统性地研究Transformer是否可以获得隐式推理的能力。并通过一系列实验和对于模型内部的分析揭示了Grokking对于获得隐式推理能力的重要性,其背后的过程和原因,以及Transformer模型对于不同任务的系统性泛化能力的差异。

Talk·信息

主题: Transformer模型能否进行隐式的推理?关于Grokking和泛化的深入探索

嘉宾:俄亥俄州立大学博士生 汪博石

时间:北京时间 7月17日(周三)20:00

地点:TechBeat人工智能社区

点击下方链接,即可观看视频!

TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。icon-default.png?t=N7T8https://www.techbeat.net/talk-info?id=888

Talk·介绍

现今的大语言模型虽然能力广而出众,但许多工作发现它们依旧很难基于参数知识做隐式推理。这项缺陷会导致他们内部的知识和规则的表示冗余而难以更新,同时限制它们的泛化能力。在这篇工作中,我们系统性地研究Transformer是否可以获得隐式推理的能力。我们的一系列实验和对于模型内部的分析揭示了Grokking对于获得隐式推理能力的重要性,其背后的过程和原因,以及Transformer模型对于不同任务的系统性泛化能力的差异。

Talk大纲

1. 背景 - Transformer语言模型的隐式推理能力的欠缺 

2. 我们为什么要关注隐式推理和参数化知识?

3. 我们的研究方法与评估设计 

4. Grokking现象与其背后原理的深入分析 

5. 模型的内部电路(circuits)与系统性泛化 

6. 参数知识对于复杂推理的重要性 

7. 总结与展望

Talk·预习资料

图片

论文链接:  

https://arxiv.org/abs/2405.15071

图片

论文链接: 

https://arxiv.org/abs/2309.02390

图片

论文链接:  

https://arxiv.org/abs/2201.02177

Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

汪博石

俄亥俄州立大学 · 博士生

汪博石是俄亥俄州立大学的三年级博士生,在Huan Sun教授的指导下进行研究。他的主要研究方向为评估、理解和提升语言模型的知识和推理能力。他曾经在自然语言处理和人工智能领域的顶级会议上发表多篇论文,其中在ACL-23发表的理解大模型的思维链能力(Chain-of-Thought)的工作曾获得最佳论文荣誉提名奖。他的近期研究兴趣主要集中在Transformer模型的隐式推理能力和其相关的影响。

个人主页: 

https://www.techbeat.net/grzytrkj?id=40608


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值