摘要:尽管语言模型提取事实的能力已得到广泛研究,但它们如何处理随时间变化的事实仍探索不足。我们通过电路分析发现了“时间信息头”,即特定的注意力头,它们主要负责处理时间知识。我们证实,这些头在多个模型中均存在,尽管它们的具体位置可能有所不同,并且它们对不同类型的知识及其对应年份的反应也有所不同。禁用这些头会降低模型回忆时间特定知识的能力,但同时保持其一般能力,不会影响时间不变性和问答性能。此外,这些头不仅在数字条件(“在2004年”)下被激活,还在文本别名(“在……年”)下被激活,这表明它们编码的时间维度超越了简单的数字表示。此外,我们还通过展示如何通过调整这些头的值来编辑时间知识,从而拓展了我们的发现潜力。Huggingface链接:Paper page,论文链接:2502.14258
1. 引言
- 研究背景:大型语言模型(LLMs)如GPT和LLaMA在利用事实性知识方面表现出色,但它们在处理随时间变化的事实时仍面临挑战。这些模型需要准确表示时间知识,即在不同时间点发生变化的事实。
- 研究动机:尽管LLMs具有一定的时间意识,但它们在内部如何组织和回忆时间知识的机制尚不完全清楚。本文旨在探讨LLMs内部是否存在专门处理时间知识的组件。
- 研究问题:LLMs内部是否有特定的注意力头(Temporal Heads)负责处理时间知识?这些头在模型架构中的位置如何?它们对时间知识回忆的影响有多大?
2. 方法论
- 电路分析(Circuit Analysis):本文采用电路分析方法来研究LLMs的计算过程。电路分析将变压器的计算表示为有向无环图(DAG),其中每个节点对应模型的一个组件(如注意力头、MLP模块等),边表示节点之间的残差连接。
- 知识电路(Knowledge Circuit):在电路分析的基础上,本文定义了知识电路,用于识别模型中处理特定知识三元组(主题、关系、对象)的关键组件。通过系统地消融(即将节点或边的激活置为零)模型组件,可以构建出对生成正确对象至关重要的子图(即知识电路)。
- 时间知识电路(Temporal Knowledge Circuit):本文进一步扩展了知识电路的概念,提出了时间知识电路,用于分析模型在不同时间点如何生成不同的对象。通过比较不同时间点的知识电路,可以识别出编码时间特异性知识的关键组件。
3. 实验设置
- 模型选择:本文主要在三个LLMs上进行了实验:Llama-2-7b-chat-hf、Qwen1.5-7B-Chat和Phi-3-mini-4k-instruct。
- 数据集:
- 时间知识:基于Wikidata构建了各种类别的时间知识样本,包括运动员所属运动队、国家领导人、公司CEO等,每个样本都嵌入了特定的年份。
- 时间不变知识:来自LRE的常识数据,包括对象超类、水果内部颜色等,这些数据不随时间变化。
- 非结构化QA:使用TriviaQA和Math ChroKnowledge数据集进行一般QA任务的验证。
- 消融实验:通过消融特定的注意力头或MLP组件,评估这些组件对模型性能的影响。
4. 发现与结果
- Temporal Heads的存在:本文在多个LLMs中发现了Temporal Heads,这些头主要负责处理时间知识。例如,在Llama2中,a15.h0和a18.h3被确定为Temporal Heads,它们在处理时间知识时表现出强烈的激活,而在处理时间不变知识时则保持不活跃。
- 消融实验的影响:消融Temporal Heads会显著降低模型在时间知识任务上的性能,而对时间不变知识和一般QA任务的性能影响较小。这表明Temporal Heads对时间知识的回忆至关重要。
- 时间知识的复杂性:与时间不变知识相比,时间知识电路在再现模型行为时表现出更大的变异性。这可能是由于基于年份的事实需要更精确的时间条件,增加了任务的难度。
- Temporal Heads的激活条件:Temporal Heads不仅被数值条件(“In 2004”)激活,还被文本别名(“In the year...”)激活,这表明它们编码的时间维度超越了简单的数值表示。
- 备份Temporal Heads:在消融主要Temporal Heads后,一些备份Temporal Heads会出现并接管部分时间知识处理任务。这些备份头在正常情况下不活跃,但在主要头被消融时会复制其主要功能。
5. 深入分析
- 注意力头消融推理:本文通过硬编码方法将选定的注意力头的输出权重置为零,并测量模型在正确目标对象与竞争对象之间的对数概率变化。结果显示,消融Temporal Heads会显著降低模型在时间知识任务上的对数概率,而对时间不变知识和一般QA任务的影响较小。
- 别名测试:本文进一步测试了Temporal Heads是否对文本条件敏感。结果显示,即使在没有直接数值条件的情况下(如使用事件名称作为时间别名),Temporal Heads仍然会被激活并影响模型的输出。
- 时间知识编辑:本文通过向目标提示注入源提示的注意力头值来编辑时间知识。结果显示,这种方法可以成功地改变模型的输出,使其从时间错误答案转变为时间正确答案。这表明通过操纵Temporal Heads的值可以有效地编辑时间知识。
6. 相关工作
- LLMs中的时间知识:尽管LLMs在处理事实性知识方面取得了显著进展,但它们在处理时间知识方面仍面临挑战。先前的研究主要集中在事实一致性或模型编辑方面,而较少关注事实如何随时间变化。
- 语言模型中的注意力头:在机制可解释性方面,先前的研究已经识别出语言模型中负责特定任务的注意力头,如复制关键令牌的头、检索头、语义信息等。这些研究表明,通过消融特定的注意力头可以显著破坏模型的任务性能。
7. 结论
- 主要发现:本文通过系统研究LLMs如何处理时间知识,发现了专门负责处理时间知识的Temporal Heads。消融这些头会导致时间不匹配,而不会影响时间不变知识和一般QA性能。此外,Temporal Heads也被文本条件激活,并且可以通过注入其值来编辑时间知识。
- 研究意义:本文的研究为理解LLMs内部处理时间知识的机制提供了有价值的见解,并为未来开发时间感知模型对齐和精确时间更新方法提供了启示。
- 未来工作:未来的研究可以进一步探索如何更有效地利用Temporal Heads来改进LLMs的时间知识处理能力,以及如何将这种方法扩展到其他类型的时间知识任务中。
8. 限制
- 数据集限制:本文的分析主要集中在时间知识数据集上,而对非结构化时间QA任务的约束较多。未来的研究可以进一步扩展数据集以涵盖更多类型的时间知识任务。
- 模型限制:由于EAP-IG不支持具有分组查询注意力(GQA)的模型,本文的主要分析排除了某些模型(如Llama-3-8B-Instruct)。未来的研究可以探索如何扩展电路分析方法以支持更多类型的模型。
9. 致谢与参考文献
- 本文感谢韩国国家研究基金会、韩国卫生与福利部以及韩国信息和通信技术规划与评价研究所的支持。同时,本文引用了大量相关文献以支持其研究结论和发现。
10. 附录
- 附录部分提供了实验细节、数据集统计、电路再现分数定义、消融实验结果、注意力图等额外信息以支持本文的研究结论和发现。
本文通过系统研究LLMs如何处理时间知识,发现了专门负责处理时间知识的Temporal Heads,并深入分析了这些头在模型中的位置、激活条件以及对时间知识回忆的影响。这些发现为理解LLMs内部处理时间知识的机制提供了有价值的见解,并为未来开发时间感知模型对齐和精确时间更新方法提供了启示。同时,本文也指出了当前研究的局限性,并提出了未来可能的研究方向。