主要内容
本文围绕大型语言模型(LLMs)的低困惑度序列展开研究,旨在探究LLMs如何利用和复制训练数据。主要内容包括:
- 研究背景与目标:LLMs的训练数据利用机制尚未完全明确,训练数据归因(TDA)对提升透明度、可追责性等至关重要。现有TDA方法分为因果型(计算成本高)和相似性型(高效但近似),本文聚焦相似性型中的逐字回忆分析,通过低困惑度序列探究LLMs的记忆行为。
- 研究方法:提出开源pipeline,提取LLM输出中的低困惑度序列(连续 tokens 困惑度满足特定阈值),并通过Infinigram追溯其在训练数据中的来源。实验采用Pythia 6.9B模型,训练数据为The Pile,选择遗传学、核物理、药物、密码学四个专业领域,设置特定生成参数(如top_k=20、top_p=0.8、温度T=0.7)。
- 主要发现:
- 低困惑度序列长度在不同主题间差异不大,约12-14 tokens;
- 30%-60%的低困惑度窗口无法匹配训练数据,药物领域匹配最多(67%),核物理最少(25%);
- 匹配到的序列可分为四类:合成连贯性(无匹配)、记忆(少量匹配)、片段复制(中等匹配)、频繁出现文本(大量匹配),约20%的低困惑度窗口匹配文档数量少,可手动审查;
- 模型越大,低困惑度窗口及匹配数越少;温度0.7能平衡低困惑度窗口数量与重复性。
- 局限性:阈值选择需进一步验证,独立困惑度作