本文是LLM系列文章,针对《From Understanding to Utilization: A Survey on Explainability for Large
Language Models》的翻译。
摘要
大型语言模型(LLM)的可解释性是自然语言处理的一个关键但具有挑战性的方面。随着LLM越来越成为各种应用程序的组成部分,其“黑匣子”性质引发了人们对透明度和道德使用的重大担忧。这项调查强调了提高LLM可解释性的必要性,深入研究了可解释性研究以及利用对这些模型的理解的各种方法和任务。我们的重点主要是预训练的基于Transformer的LLM,如LLaMA,由于其规模和复杂性,它们带来了独特的可解释性挑战。根据现有的方法,我们根据其解释目标将其分为局部分析和全局分析。在考虑可解释性的利用时,我们探索了几种引人注目的方法,这些方法集中于模型编辑、控件生成和模型增强。此外,我们还研究了具有代表性的评估指标和数据集,阐明了它们的优势和局限性。我们的目标是将理论和实证理解与实际实施相协调,为解释技术及其在LLM时代的应用提出令人兴奋的途径。