大模型模仿人类记忆,迎来无限上下文时代

我们都知道,人类大脑在处理长时间的记忆和事件时表现出色。而现有的大型语言模型(LLMs),虽然已经展现出了非凡的能力,但在处理广泛的上下文时仍然存在困难,这限制了它们在处理长序列时保持连贯性和准确性的能力。这样的表现有限主要是因为:- Transformer架构在遇到比它们训练时用的上下文更长的内容时,会变得不太灵活。- 当序列很长时,注意力机制的效果会变得混乱和噪声化。- 尽管像检索增强生成(RAG)这样的技术有一些进展,但在处理长上下文任务时,效果还是不够好。

bdb705d5f8814fa4a387783555a5d3b2.jpeg

相比之下,人类的大脑在组织和检索跨越一生时间尺度的事件体验方面非常出色。

在这项工作中,介绍了EM-LLM,这是一种新颖的方法,它将人类事件记忆和事件认知的关键方面整合到LLMs中,使它们能够有效处理几乎无限的上下文长度,同时保持计算效率。

EM-LLM(Episodic Memory,情景记忆):使得LLM能够处理几乎无限长的上下文,同时保持计算效率。

EM-LLM通过在推理过程中基于惊奇水平(Bayesian surprise)对词序列进行分段,初步边界是动态确定的,随后通过图论度量进行优化。这种方法不仅提高了模型的记忆检索效率,还模仿了人类记忆的时间动态,使得相关信息的检索既基于相似性也考虑时间连续性。

EM-LLM通过结合贝叶斯惊喜和图论边界细化的方式,将一系列标记组织成连贯的事件体验,并以在线方式进行。当需要时,这些事件通过一个两阶段的记忆过程被检索,结合基于相似性和时间连续性的检索,以高效且类似人类的方式访问相关信息。

在LongBench数据集上的实验表明,EM-LLM的性能优于最先进的InfLLM模型,在各种任务中整体相对提高了4.3%,包括在PassageRetrieval任务上提高了33%。

此外,分析显示,EM-LLM的事件分割与人类感知的事件有很强的相关性,表明了这个人工系统和其生物对应物之间的桥梁。这项工作不仅提升了LLM在处理扩展上下文方面的能力,还为探索人类记忆机制提供了一个计算框架,为人工智能和认知科学领域的跨学科研究开辟了新的途径。

未来研究可以探索更复杂的分段和聚类算法,以进一步提升EM-LLM的性能。

原文指路:https://arxiv.org/abs/2407.09450

拥抱脸:https://huggingface.co/papers/2407.09450?continueFlag=bba6c2a3f1934af755c16e5fe0d22454

高性价比GPU算力:https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_0718_shemei

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值