TEST-TIME TRAINING ON NEAREST NEIGHBORS FOR LARGE LANGUAGE MODELS

UnknownBody

于 2024-10-11 09:00:00 发布

阅读量211

点赞数 5

分类专栏： LLM Daily LLM Training 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/142789186

版权

LLM Daily 同时被 2 个专栏收录

1271 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

71 篇文章

订阅专栏

本文是LLM系列文章，针对《TEST-TIME TRAINING ON NEAREST NEIGHBORS FOR LARGE LANGUAGE MODELS》的翻译。

大型语言模型的最近邻的测试时训练

摘要
1 引言
- 1.1 我们的贡献
2 相关工作
3 最近邻索引
4 最近邻的Test-Time训练
5 结果
6 局限性和未来工作

摘要

最近的许多工作通过将检索到的数据添加到输入上下文来增强语言模型的检索功能。要使此方法成功，必须在训练和测试时添加检索到的数据。此外，随着输入长度随检索数据的大小线性增长，现代 Transformer 的计算和内存成本呈二次方增长。为了避免这些复杂性，我们只需在测试时使用其标准训练设置，根据检索到的数据对模型进行微调。我们基于 Pile 数据集的文本嵌入构建了一个大规模分布式索引。对于每个测试输入，我们的系统会检索其邻居并根据其文本微调模型。令人惊讶的是，在少至 20 个相邻函数上检索和训练，每个相邻函数只进行一次梯度迭代，大大提高了 Pile 中 20 多个语言建模任务的性能。例如，与最近邻进行测试时训练显着缩小了小型 GPT-2 和大 10 倍以上的 GPT-Neo 模型之间的性能差距。但是，足够的索引质量和大小是必需的。我们的工作为语言建模建立了测试时训练的第一个基线。

1 引言

机器学习传统上将训练和测试分开。训练后，模型在评估期间保持冻结状态。但是，在测试时使用与每个单独测试实例相关的数据更新模型的有趣想法几乎与机器学习一样古老。这个想法的变体已经存在了近 50 年，包括局部加权回归，局部学习和SV

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。