本文是LLM系列文章,针对《Rethinking Interpretability in the Era of Large Language Models》的翻译。
大语言模型时代对可解释性的重新思考
摘要
在过去的十年里,由于越来越大的数据集和深度神经网络的兴起,可解释机器学习已经成为一个令人感兴趣的领域。同时,大型语言模型(LLM)在一系列任务中表现出了非凡的能力,为重新思考可解释机器学习的机会提供了机会。值得注意的是,用自然语言解释的能力使LLM能够扩展人类模式的规模和复杂性。然而,这些新功能带来了新的挑战,例如幻觉般的解释和巨大的计算成本。
在这篇立场文件中,我们首先回顾了评估LLM解释新兴领域的现有方法(包括解释LLM和使用LLM进行解释)。我们认为,尽管LLM有局限性,但它有机会在许多应用程序中,包括在审计LLM本身时,以更宏大的范围重新定义可解释性。我们强调了LLM解释的两个新的研究重点:使用LLM直接分析新的数据集和生成交互式解释。