【论文精读】Explainability for Large Language Models: A Survey
大型语言模型 (LLM) 在自然语言处理方面表现出了令人印象深刻的能力。然而,它们的内部机制仍不清楚,缺乏透明度给下游应用带来了不必要的风险。因此,理解和解释这些模型对于阐明它们的行为、局限性和社会影响至关重要。在本文中,我们介绍了可解释性技术的分类,并提供了用于解释基于 Transformer 的语言模型的方法的结构化概述。我们根据法学硕士的培训范式对技术进行分类:传统的基于微调的范式和基于提示的范式。对于每个范式,我们总结了生成个体预测的局部解释和整体模型知识的全局解释的目标和主要方法。
原创
2024-09-14 15:22:16 ·
599 阅读 ·
0 评论