本文是LLM系列文章,针对《A Law of Next-Token Prediction in Large Language Models》的翻译。
摘要
大型语言模型 (LLM) 已广泛应用于各个应用领域,但其黑盒性质对理解这些模型如何在内部处理输入数据以进行预测提出了重大挑战。在本文中,我们引入了一种精确的定量定律,该定律通过预训练的 LLM 中的中间层来控制上下文化token嵌入的学习,以进行下一个token预测。我们的研究结果表明,从最低层到最高层,每一层都对提高预测准确性做出了同等贡献——这是在基于 Transformer、RWKV 和 Mamba 等架构构建的各种开源 LLM 中观察到的普遍现象。我们证明,该法律提供了新的视角和见解,可以为LLM开发和应用的实践提供信息和指导,包括模型扩展、预训练任务和信息流。总体而言,我们的法律通过审查LLM的内部数据处理机制,为LLM的设计、训练和解释提供了更细粒度的方法。