#今日论文推荐#更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术_toward transparent ai: a survey on interpreting th-CSDN博客

#今日论文推荐#更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

在过去的十年里，机器学习的规模和能力都有了巨大的增长，深度神经网络(DNNs)正在越来越多地应用于广泛的领域。然而，DNN的内部工作原理通常很难理解，这引起了人们对使用这些系统的安全性的担忧，因为他们没有严格了解它们的功能。在这项综述中，我们回顾了解释DNN内部成分的技术，我们称之为内部可解释方法。具体而言，我们回顾了解释权重、神经元、子网和潜在表示的方法，重点关注这些技术如何与设计更安全、更值得信赖的AI系统的目标相关联。我们还强调了可解释性与模块化、对抗鲁棒性、持续学习、网络压缩和人类视觉系统研究之间的联系。最后，我们讨论了关键的挑战，并讨论了未来在人工智能安全可解释性方面的工作，重点是诊断、基准测试和鲁棒性。
过去十年深度学习的一个显著特征是规模和能力的急剧增长[124]，[228]，从2010年到2022年，机器学习系统的训练计算增长了100亿倍[227]。与此同时，深度神经网络(DNNs)越来越多地用于安全、可预测的行为至关重要的环境中。如果继续快速发展，自动化的宽领域智能有可能对社会产生高度影响[33]，[51]，[179]，[195]，[210]，[239]。考虑到这些发展，从业者能够理解AI系统如何做出决策，特别是它们的失败模式是至关重要的。人工智能系统最典型的评估标准是它们在特定任务测试集上的表现。这引起了关注，因为在测试集中表现良好的黑盒并不意味着学习到的解决方案就足够了。例如，部署分布可能不同于测试分布，并且/或者任务目标的规范可能导致意外行为(例如[135]，[147])。即使用户意识到不足之处，系统的黑盒特性也会使修复缺陷变得困难。因此，建立安全可靠的人工智能系统的一个重要步骤是拥有检测和解决这些缺陷的技术。为此，拥有一套多样的严格解释AI系统的技术将是有价值的(见I-A)。
我们将可解释性方法定义为可以用人类可以理解的术语描述系统行为的任何过程。这包含了DNN文献中广泛的技术，所以在本文中，我们特别关注对理解内部结构和表示有用的方法。我们称之为内部可解释方法。我们讨论了这些方法的分类，提供了文献综述，讨论了可解释性和深度学习中的其他主题之间的关键联系，并总结了继续工作的方向。我们的中心目标有两方面: (1)为现有的内在可解释性方法提供一个全面的参考资源，(2)为持续的、以安全为重点的研究提供指导方向。

可解释性技术的一个主要动机是理解模型的潜在问题。因此，可解释性方法将与构建更安全、更值得信赖的人工智能系统高度相关。
可解释性技术应通过其产生新颖、有效和可操作见解的能力来评估。这可能是困难的，而且在文献中评估常常做得很差。需要严格的测试和基准来评估解释，应该包括重新发现DNN的已知缺陷。
可解释性、模块化、对抗鲁棒性、持续学习、网络压缩和与人类视觉系统的相似性之间有许多丰富的联系。
未来工作的引人注目的方向包括使用人类输入的可扩展方法、逆向工程系统、检测潜在知识、基准测试和研究技术之间的交互。

论文题目：Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks
详细解读：https://www.aminer.cn/research_report/62f661b77cb68b460f019959https://www.aminer.cn/research_report/62f661b77cb68b460f019959
AMiner链接：https://www.aminer.cn/?f=cs