5月9日｜探究线性表示在大语言模型中的起源

智源社区

于 2024-04-30 12:30:28 发布

阅读量18

点赞数

文章标签：语言模型机器学习人工智能深度学习自然语言处理

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5ODg0MTAwMw==&mid=2247543258&idx=2&sn=a4dd76d28cef9685e0360650270519ff&chksm=ff667f351593c4719ece776f970dfd2c91b8010ba5eefd50028920b3d89195e2733bc70c6892&scene=126&sessionid=0

版权

报告主题：探究线性表示在大语言模型中的起源

报告日期：5月9日（周四）10:30-11:30

报告要点：

大语言模型的成功很大程度上归结于它能有效的把海量信息压缩在模型的向量空间中。这项工作研究了这个基础问题: 大语言模型是如何表示高级语义概念的. 以往的研究发现高级语义概念通常在大语言模型的表示空间中被“线性”编码。是什么原因导致了这一现象呢? 在这项工作中，我们研究了这种线性表示的起源。我们发现这和下一个标记预测的目标和梯度下降的隐含偏差(implict bias)有关. 我们同时也验证了我们的理论在LLaMA-2 语言模型上.

报告嘉宾：

蒋贻博，论文一作，芝加哥大学计算机博士生, 导师为Victor Veitch教授. 他的研究领域包括特征学习, 因果推断, 可解释性. 硕士毕业于哥伦比亚大学，本科毕业于UIUC。

扫码报名

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
5月9日｜探究线性表示在大语言模型中的起源

报告主题：探究线性表示在大语言模型中的起源报告日期：5月9日（周四）10:30-11:30报告要点：大语言模型的成功很大程度上归结于它能有效的把海量信息压缩在模型的向量空间中。这项工作研究了这个基础问题: 大语言模型是如何表示高级语义概念的. 以往的研究发现高级语义概念通常在大语言模型的表示空间中被“线性”编码。是什么原因导致了这一现象呢? 在这项工作中，我们研究了这种线性表示的起源。我们发现这和...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。