论NLP可解释的评估:什么才是“好”的解释?

本文深入探讨了自然语言处理(NLP)领域中模型可解释性的评估问题,指出当前评估方法的不足,如混淆似然性和忠实性。忠实性评估旨在反映模型真实推理过程,而人的参与往往只能评估似然性。文章提出,忠实性应分为三个原则假设:模型假设、预测假设和线性假设,并主张在实践中采用分级标准来衡量解释的忠实度。此外,文章警告了过度依赖人机交互评估可能导致的误导,并呼吁对忠实性进行更精细的定义和评估。
摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者|李泺秋

学校|浙江大学硕士生

研究方向|自然语言处理、知识图谱

前言

深度学习模型已经成为 NLP 的标准工具,在解决许多问题上大显神通。然而其黑盒性质也成为一大问题,对系统的可控性、可信任度都造成影响。在医疗、金融等领域,对模型可解释的需求都日益增加。

目前,NLP 的可解释领域中已经有了不少工作,比如:

  • 基于 probing task 测试模型的语义理解能力

  • 从模型的 embedding、activation、attention 到 saliency 的可视化分析

  • 构造特定语言现象的 challenge set 作某种方面质量评估的

  • 用各种启发式方法生成 adversarial sample 分析模型鲁棒性的

  • 生成模型预测的自然语言解释文本(NL Explanation Generation)

  • 寻找简单的替代模型,或者将模型的局部分类面简化(LIME 等)

  • ……

等等。以上每一条线都有许多不同的工作,感兴趣的读者可以从这篇概述入手了解。

但是或许我们需要先回答一个更加基本,也更核心的问题:

如何评估解释的好坏?

如果没有一个直接的、统一的标准,又有什么制定标准的原则可以是值得参考和遵守的?

据个人目前了解,还没有工作提出一个能说服大部分人的解释的标准——或者只能定性而非定量分析(例如可视化方法),或者很大程度基于主观认识(例如 contrast set,或者和人工标注进行对比等),或者不能从根本上说明问题(例如对抗方法),有的甚至没有办法和其他方法进行比较孰优孰劣…… 说白了,所有人都像是在摸着石头过河。

但是,如果不将这一问题说明白,建立共识性的认知,那么可以说所有的解释工具都只是自说自话,解释也将和深度学习本身一样化为“玄学”(甚至比玄学更玄,因为我们甚至不知道目标在哪里),再多 fancy 的 technique 也只会使我们离真实越来越远。

而这也正是目前大家所关心和纠结的问题:

https://www.zhihu.com/question/341190239

于是,本文将解读一篇发表在 ACL 2020 的综述文章 Towards Faithfully Interpretable NLP Systems: How Should We Define and Evaluate Faithfulness?,分享其中关于可解释评估的一些现状分析和思考。(当然,或许仅凭借这一篇文章也无法给出正确的结论,但是至少它可以提供了一些讨论的基础)

为了节约大家时间,先把文章的结论放在这里,可以快速跳到相关的内容:

1. 可解释的评估包含似然性和忠实性的评估,而人的参与只会把评估变为似然性评估,对证明模型具有真正的可解释能力——即忠实性方面毫无用处。

2. 忠实性的评估可以分为三个基本的原则假设,即模型假设、预测假设和线性假设(关于具体假设的内容请见下文)。

3. 忠实性不应该是一个“是”或“否”的评估,不然完全忠实的模型如同真空中的球形鸡,是不存在的。我们应该在更细微的“灰度”上评估忠实度,即使这些解释不具有全局性和明确的忠实性,也可以使解释有用。

NLP可解释领域现存的问题

1. 当前的解释方法受实际用例和应用程序的启发,以非常特殊性(而非普遍性)的方式定义解释。但是,这种视角通常无法区分解释质量的各个方面,例如可读性(readability),似然性(plausibility)和忠实性(faithfulness——Herman,2017 年)。

2. 此外,尽管很多工作可能会隐式或显式地评估对特定解释技术的忠诚度,但对忠诚度并没有统一和正式的定义。

3. 最后,当下还有一种趋势:将忠实性视为二元属性,然后说明解释方法不忠实。本文认为这是徒劳的——几乎不可能完全满足这些假设,并且通过反例来证明一种解释方法的真实性也太容易了。

针对以上内容,本文的贡献可以总结如下:

  • 对于第 1 点和第 2 点,本文对忠实性作出了定义:和似然性无关,忠实的解释可以准确地表示模型预测背后的推理过程。并且本文认为,在要求解释如实的情况下,不完善或误导性的评估可能会造成灾难性的影响。

  • 本文通过明确所有可解释的尝试背

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值