EMNLP2023 | 令人信服的决策! 统一的两阶段框架: 自我归因与决策

最新推荐文章于 2025-03-17 13:57:28 发布

zenRRan

最新推荐文章于 2025-03-17 13:57:28 发布

阅读量224

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247524635&idx=2&sn=0433ce914fccfe431f77b7dfdd241e68&chksm=eae028c45d9df6e8b1d614568fb175748a846e6605275d2aa3e3333f86e10b7377f10f7126f2&scene=126&sessionid=0

版权

论文：Make Your Decision Convincing! A Unified Two-Stage Framework: Self-Attribution and Decision-Making

作者：杜晏睿，赵森栋等

链接：https://arxiv.org/pdf/2310.13610.pdf

出处：哈工大SCIR

1. 背景

通过自然语言解释黑箱模型行为在各种自然语言处理（NLP）任务中取得了令人印象深刻的成果。其中一种形式是，如图1所示，利用输入文本的子序列作为证据，为用户提供支持模型决策的合理解释。

图1 将Claim和Passage作为模型输入，模型的输出为决策和支撑其决策的证据。

尽管现有框架在生成高质量的证据和实现高任务性能方面表现出色，但它们忽略了所提供的证据和决策之间的不可靠联系。简单地说，如图1所示，模型可能在提供错误的证据时做出正确的决策，或者在提供正确的证据时做出错误的决策。为了缓解这一问题，我们提出了一个统一的两阶段框架，称为Self-Attribution and Decision-Making (SADM)。

2. SAMD框架

2.1 总体架构

人类推理理论(Evans, 1984)认为人类推理有两个过程:启发式过程和分析过程。在启发式过程中，个体收集与任务相关的信息，而分析过程则涉及对收集到的信息进行操纵和加工以做出判断。从这种认知思维中获得灵感，我们提出了SADM框架，如图2所示。首先，我们使用Trationale模板来提示模型生成与任务相关的证据，这个过程称为Self-Attribution。随后，我们使用Tanswer模板来提示模型根据生成的证据做出其决策，该过程称为Decision-Making。关于提示模板的选择，我们利用面向人类理解的自然语言。以事实验证任务（FEVER）为例。对于Trationale模板，我们将其设计如下:“Extract the rationale from the passage to assess the claim”。对于Tanswer模板，我们将其设计为:“Refer to the following information to judge the claim”。我们使用了离散提示模板，并不会引入额外的参数或训练成本。

此外，为了处理冗长文本输入的问题，我们引入了基于seq2seq模型的FID架构。FID的结构描述如下：首先将长文本分成多个片段，分别表示为{seg1, seg2，…, segn}。接下来，将问题q与每个片段segi结合，在编码器模块中单独编码，生成多个向量表示{e1, e2，…,en}。最后，所有的向量表示都连接为e1⊕e2…⊕en，转发给解码器模块进行进一步处理。

图2 SADM框架的示例图

2.2 训练和推理

a) 训练

训练阶段旨在实现两个目标:

Orationale：训练模型在Trationale模板的提示下生成与任务相关的证据。
Oanswer：训练模型在Tanswer提示下根据提供的证据做出决策。

如图3所示，对于目标Orationale，Trationale、问题q和文本p作为模型的输入，使用人工注释的证据r作为学习目标。对于目标Oanswer，Tanswer、问题q和人工注释的证据r作为输入，将决策y作为学习目标。训练过程中，我们采用联合训练策略，即将两个目标的损失相加。

此外，为了增强模型在两个阶段的能力，我们分别采用了Sentence Mark (SM)策略和Reasoning Augment Learning (RAL)策略。

SM策略：最近的研究强调了生成式模型的创造性。因此，我们有一个担忧，即生成模型可能会产生随机和不相关的自然语言作为证据。为了缓解这个问题，我们采用了SM策略，该策略在文本p中的每个句子之前添加索引号。如一段文本由n个句子组成(s1，…，sn)。添加索引后，段落的形式为(S1: s1，…，Sn: sn)，其中大写字符为句子索引。若应用SM策略，在训练过程中优化目标Orationale时，需要将人工标注的句子索引作为学习目标，而不是自然语言形式的证据。
RAL策略：考虑到人类无论面对细粒度信息(如人类注释的证据)还是粗粒度信息(如整段文本)，都有能力做出合理的决策。因此，我们同样希望赋予模型感知不同粒度信息的能力，从而增强其推理能力。为了实现这一点，我们利用了监督数据中可用的丰富信息。如图3所示，对于目标Oanswer，我们增加了两种训练样本格式。分别将Tanswer、问题q、文本p作为输入和将Tanswer、问题q、人工注释的证据r、文本p作为输入，同时以决策y作为学习目标，计算出的损失添加到联合训练的损失中。

图3 RAL策略

b) 推理

在推理阶段采用pipeline的策略。首先使用Trationale模板提示模型，模型会根据问题q和文本p生成证据。如果使用SM策略，模型先生成句子索引，然后使用句子索引从文本p中定位到相应的证据。随后使用Tanswer模板提示模型根据生成的证据做出决策。此外，我们还考虑在决策阶段让模型同时基于生成的证据和文本做出决策。

3 实验分析

3.1 数据集

表1 数据集统计

实验中使用的数据集统计结果如表1所示。FEVER 数据集旨在判断给定段落是否支持或反驳该说法。MultiRC 数据集旨在根据给定的段落为为与答案相关的问题分配True或False。BoolQ数据集旨在根据给定的段落使用True或False标签回答问题。Evi inf数据集将(干预、结果、比较者)三元组连接到问题中，目的是根据给定的段落判断干预是否显著增加、减少或对结果没有影响。Mov Rev数据集旨在分析给定段落的情感为正面或负面标签，其中问题被统一设置为“这篇评论的情感是什么?”。此外，Mov Rev数据集提供短语粒度的注释证据，而其他数据集提供句子级别的注释证据。为保持一致，我们将短语粒度的注释转换为句子粒度的注释。

3.2 评价指标

我们使用Accuracy评估任务性能，并使用Intersection-Over-Union F1分数(IOU F1)，Token F1 (TF1)和证据精度(R-Acc)评估生成的证据的质量。此外，我们引入了一个新的度量，推理成功商(RSQ)，以衡量生成的证据和决策之间可靠联系的程度。具体来说，我们将测试样本分为四类:

rcdc: 生成的证据和模型决策都正确的样本。
rwdw: 生成的证据和模型决策都错误的样本。
rcdw: 生成的证据是正确的，但模型决策是错误的。
rwdc: 生成的证据是错误的，但模型决策是正确的。

RSQ度量的计算方法如下。

基于RSQ度量，我们还提出了RSQ-W和RSQ-C度量来指导更详细的分析。RSQ-W衡量当模型提供正确的证据时，模型做出错误决策的比例。RSQ-W度量如下:

RSQ-C度量当模型提供错误的证据时，模型所做正确决策的比例。RSQ-C度量如下:

3.3 主实验结果

在主实验中，我们将场景分为全监督场景和半监督场景。在全监督场景中，我们为每条训练样本提供人工注释的证据。在半监督场景中，我们和先前工作一致，仅为25%的训练样本提供人工注释的证据。

表2 全监督场景下的实验结果

全监督场景。 如表2所示，实验结果显示了SADM框架的良好潜力。对于任务性能(Perf.)和证据质量(IOU F1, TF1和R-Acc)，我们的框架在五个数据集上显示了不同程度的改进。值得注意的是，我们的框架在RSQ度量中表现出了更显著的改进，这表明在生成的证据和决策之间存在更可靠的联系。

表3 半监督场景下的实验结果

半监督场景。 考虑到证据注释的昂贵成本，半监督的场景更有可能应用于现实世界。我们只使用25%的带有注释证据的训练数据。如表3所示，在Mov Rev数据集上，我们的SADM框架在任务性能和证据质量方面的性能低于FID-Ex框架，但在RSQ指标方面仍优于前者。在其他四个数据集上，我们观察到任务性能平均提高3.7分，IOU F1提高1.3分，TF1提高0.9分，RSQ指标提高4.2分。整体上看，我们的框架显示出更显著的优势。

3.4 消融实验结果

表4 消融实验结果

在消融实验中，我们评估了没有SM策略和RAL策略的SADM框架的性能。如表4所示，实验结果表明，无论去掉SM策略还是去掉RAL策略，SADM框架的性能均有一定程度的下降，这说明SM策略和RAL策略都起到了正向的作用。值得注意的是，我们特别验证了RAL策略对模型推理能力的影响。我们提出了以证据为中心的精度(RCP)度量，它关注为模型在决策阶段提供人工注释的证据时，模型可以做出正确决策的比例。实验结果表明，当去除RAL策略时，五个数据集的RCP度量平均下降1.3个点。这种现象凸显了RAL策略在提高模型决策阶段推理能力方面的重要意义。

4 讨论

4.1 先前研究（Measuring Association Between Labels and Free-Text Rationales）表明相比于pipeline框架，parallel框架（让模型同时生成证据和决策）的综合性能更好，这与我们工作的结论不符。

为了阐述该问题，我们首先说明和先前工作最大的区别在于实验场景的不同：自由文本证据场景vs提取证据场景：

对于自由文本证据场景，目标是让模型根据候选选项对问题做出正确的选择，并生成连贯的自由文本段落作为支持其决策的证据。对于提取证据场景，目标是让模型根据给定的文章提供问题的答案，同时从文章中提取句子作为证据以支持其决策。

先前的工作揭示了在自由文本证据场景中，pipeline框架面临以下挑战:

由于在self-attribution阶段产生的质量差的证据导致的级联错误。
Pipeline往往将参数的数量增加一倍，以达到与端到端(I→OR)框架相当的性能，但通常性能仍然更差。

然而，这些挑战在提取证据场景中并不存在。关于挑战1，如表2所示，我们的SADM框架确保了在Self-Attribution阶段生成证据的质量。我们将这种能力归因于在基于T5的模型上使用信息提取(IE)任务的可行性。然而，在自由文本证据场景中，使用T5生成自由文本仍然存在挑战。对于挑战2，这在我们提出的框架中得到了解决。如图2所示，我们的pipeline框架在训练的两个阶段之间共享参数。在不增加额外参数的情况下，我们的框架可以获得更好的性能。

因此，在不同的场景下，我们可以考虑基座模型的能力从而选择不同的架构。

4.2 ChatGPT在该任务上的性能如何？

在rebuttal阶段，我们补充了关于对ChatGPT的分析(https://openreview.net/forum?id=xJ3O94DnMZ&noteId=LyQNj6XpjJ)。实验结果表明，我们的模型在各种其他数据集和指标上优于ChatGPT。我们将此归因于两个关键因素:

我们的数据主要由冗长的文本组成，充满了复杂和嘈杂的信息。处理复杂的信息对任何语言模型都是一个挑战，包括ChatGPT，特别是没有针对我们的特定场景进行微调的语言模型。
我们的任务包括从文章中提取句子作为证据，类似于信息提取(Information Extraction, IE)任务。值得注意的是，有大量的工作[3][4]表明，ChatGPT在IE任务上的性能明显弱于精细调整的较小模型。因此，与ChatGPT相比，我们的模型的优越性能并不奇怪。

即便如此，我们也并不能认为ChatGPT的能力较弱。正如4.1讨论的，我们需要考虑基座模型本身的能力。ChatGPT的强大之处在于其生成能力而不是抽取，如果我们不严格控制ChatGPT从文本中提取证据，而是鼓励ChatGPT生成一段自由文本的证据，也许会展现一个不一样的结果。

参考文献

[1] Jay DeYoung, Sarthak Jain, Nazneen Fatema Rajani, Eric Lehman, Caiming Xiong, Richard Socher, and Byron C Wallace. 2019. Eraser: A benchmark to evaluate rationalized nlp models. arXiv preprint arXiv:1911.03429.

[2] Kushal Lakhotia, Bhargavi Paranjape, Asish Ghoshal, Wen-tau Yih, Yashar Mehdad, and Srinivasan Iyer. 2020. Fid-ex: Improving sequence-to-sequence models for extractive rationale generation. arXiv preprint arXiv:2012.15482.

[3] Jonathan St BT Evans. 1984. Heuristic and analytic processes in reasoning. British Journal of Psychology, 75(4):451–468.

[4] Gautier Izacard and Edouard Grave. 2020. Leveraging passage retrieval with generative models for open domain question answering. arXiv preprint arXiv:2007.01282.

[5] Sarah Wiegreffe, Ana Marasovic, and Noah A Smith. ´ 2020. Measuring association between labels and freetext rationales. arXiv preprint arXiv:2010.12762.

[6] Bhargavi Paranjape, Mandar Joshi, John Thickstun, Hannaneh Hajishirzi, and Luke Zettlemoyer. 2020. An information bottleneck approach for controlling conciseness in rationale extraction. arXiv preprint arXiv:2005.00652.

[7] Asish Ghoshal, Srinivasan Iyer, Bhargavi Paranjape, Kushal Lakhotia, Scott Wen-tau Yih, and Yashar Mehdad. 2022. Quaser: Question answering with scalable extractive rationalization. In Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 1208–1218.

[8] James Thorne, Andreas Vlachos, Christos Christodoulopoulos, and Arpit Mittal. 2018. Fever: a large-scale dataset for fact extraction and verification. arXiv preprint arXiv:1803.05355.

[9] Daniel Khashabi, Snigdha Chaturvedi, Michael Roth, Shyam Upadhyay, and Dan Roth. 2018. Looking beyond the surface: A challenge set for reading comprehension over multiple sentences. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 252–262.

[10] Christopher Clark, Kenton Lee, Ming-Wei Chang, Tom Kwiatkowski, Michael Collins, and Kristina Toutanova. 2019. Boolq: Exploring the surprising difficulty of natural yes/no questions. arXiv preprint arXiv:1905.10044.

[11] Eric Lehman, Jay DeYoung, Regina Barzilay, and Byron C Wallace. 2019. Inferring which medical treatments work from reports of clinical trials. arXiv preprint arXiv:1904.01606.

[12] Omar Zaidan and Jason Eisner. 2008. Modeling annotators: A generative approach to learning from annotator rationales. In Proceedings of the 2008 conference on Empirical methods in natural language processing, pages 31–40.

[13] Sharan Narang, Colin Raffel, Katherine Lee, Adam Roberts, Noah Fiedel, and Karishma Malkan. 2020. Wt5?! training text-to-text models to explain their predictions. arXiv preprint arXiv:2004.14546.

本期责任编辑：赵森栋

本期编辑：李宝航

公众号后台回复aaai、acl、naacl直接进投稿群~

回复LLM进入技术交流群~