Explainability for Large Language Models: A Survey

最新推荐文章于 2025-12-17 17:41:55 发布

UnknownBody

最新推荐文章于 2025-12-17 17:41:55 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

分类专栏： Survey Paper 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/133696274

Survey Paper 同时被 2 个专栏收录

277 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

828 篇文章

已下架不支持订阅

本文深入探讨大型语言模型的可解释性，分析了基于微调和提示的训练范式的解释方法，讨论了评估解释的度量、挑战及如何改进模型性能。

本文是LLM系列文章，针对《Explainability for Large Language Models: A Survey》的翻译。

大型语言模型的可解释性:综述

摘要
1 引言
2 LLM的训练范式
3 传统微调范式的解释
4 提示范式的解释
5 评估的解释
6 研究挑战
7 结论

摘要

大型语言模型(llm)在自然语言处理方面已经展示了令人印象深刻的能力。然而，它们的内部机制仍然不清楚，这种透明度的缺乏给下游应用带来了不必要的风险。因此，理解和解释这些模型对于阐明它们的行为、局限性和社会影响至关重要。在本文中，我们介绍了可解释性技术的分类，并提供了用于解释基于Transformer的语言模型的方法的结构化概述。我们根据LLM的训练范式对技术进行分类:传统的基于微调的范式和基于提示的范式。对于每个范式，我们总结了生成个体预测的局部解释和整体模型知识的全局解释的目标和主要方法。我们还讨论了用于评估生成的解释的度量，并讨论了如何利用解释来调试模型和提高性能。最后，与传统的机器学习模型相比，我们研究了LLM时代解释技术的关键挑战和新兴机遇。

1 引言

2 LLM的训练范式

3 传统微调范式的解释

4 提示范式的解释

5 评估的解释

6 研究挑战

7 结论

在本文中，我们对LLM的可解释性技术进行了全面概述。我们总结了基于模型训练范式的局部和全局解释方法。我们还讨论了使用解释来改进模型、评估和关键挑战。未来的主要发展选择

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。