EMNLP2023 | 令人信服的决策! 统一的两阶段框架: 自我归因与决策

论文:Make Your Decision Convincing! A Unified Two-Stage Framework: Self-Attribution and Decision-Making

作者:杜晏睿,赵森栋等

链接:https://arxiv.org/pdf/2310.13610.pdf

出处:哈工大SCIR

1. 背景

通过自然语言解释黑箱模型行为在各种自然语言处理(NLP)任务中取得了令人印象深刻的成果。其中一种形式是,如图1所示,利用输入文本的子序列作为证据,为用户提供支持模型决策的合理解释。

355d79cfb9454867e83f75a1f4a0ffa0.png

图1 将Claim和Passage作为模型输入,模型的输出为决策和支撑其决策的证据。

尽管现有框架在生成高质量的证据和实现高任务性能方面表现出色,但它们忽略了所提供的证据和决策之间的不可靠联系。简单地说,如图1所示,模型可能在提供错误的证据时做出正确的决策,或者在提供正确的证据时做出错误的决策。为了缓解这一问题,我们提出了一个统一的两阶段框架,称为Self-Attribution and Decision-Making (SADM)。

2. SAMD框架

2.1 总体架构

人类推理理论(Evans, 1984)认为人类推理有两个过程:启发式过程和分析过程。在启发式过程中,个体收集与任务相关的信息,而分析过程则涉及对收集到的信息进行操纵和加工以做出判断。从这种认知思维中获得灵感,我们提出了SADM框架,如图2所示。首先,我们使用Trationale模板来提示模型生成与任务相关的证据,这个过程称为Self-Attribution。随后,我们使用Tanswer模板来提示模型根据生成的证据做出其决策,该过程称为Decision-Making。关于提示模板的选择,我们利用面向人类理解的自然语言。以事实验证任务(FEVER)为例。对于Trationale模板,我们将其设计如下:“Extract the rationale from the passage to assess the claim”。对于Tanswer模板,我们将其设计为:“Refer to the following information to judge the claim”。我们使用了离散提示模板,并不会引入额外的参数或训练成本。

此外,为了处理冗长文本输入的问题,我们引入了基于seq2seq模型的FID架构。FID的结构描述如下:首先将长文本分成多个片段,分别表示为{seg1, seg2,…, segn}。接下来,将问题q与每个片段segi结合,在编码器模块中单独编码,生成多个向量表示{e1, e2,…,en}。最后,所有的向量表示都连接为e1⊕e2…⊕en,转发给解码器模块进行进一步处理。

9063f3195326ab11b7112fa8a41e34d3.png

图2 SADM框架的示例图
2.2 训练和推理
a) 训练

训练阶段旨在实现两个目标:

  • Orationale:训练模型在Trationale模板的提示下生成与任务相关的证据。

  • Oanswer:训练模型在Tanswer提示下根据提供的证据做出决策。

如图3所示,对于目标Orationale,Trationale、问题q和文本p作为模型的输入,使用人工注释的证据r作为学习目标。对于目标Oanswer,Tanswer、问题q和人工注释的证据r作为输入,将决策y作为学习目标。训练过程中,我们采用联合训练策略,即将两个目标的损失相加。

此外,为了增强模型在两个阶段的能力,我们分别采用了Sentence Mark (SM)策略和Reasoning Augment Learning (RAL)策略。

  • SM策略:最近的研究强调了生成式模型的创造性。因此,我们有一个担忧,即生成模型可能会产生随机和不相关的自然语言作为证据。为了缓解这个问题,我们采用了SM策略,该策略在文本p中的每个句子之前添加索引号。如一段文本由n个句子组成(s1,…,sn)。添加索引后,段落的形式为(S1: s1,…,Sn: sn),其中大写字符为句子索引。若应用SM策略,在训练过程中优化目标Orationale时,需要将人工标注的句子索引作为学习目标,而不是自然语言形式的证据。

  • RAL策略:考虑到人类无论面对细粒度信息(如人类注释的证据)还是粗粒度信息(如整段文本),都有能力做出合理的决策。因此,我们同样希望赋予模型感知不同粒度信息的能力,从而增强其推理能力。为了实现这一点,我们利用了监督数据中可用的丰富信息。如图3所示,对于目标Oanswer,我们增加了两种训练样本格式。分别将Tanswer、问题q、文本p作为输入和将Tanswer、问题q、人工注释的证据r、文本p作为输入,同时以决策y作为学习目标,计算出的损失添加到联合训练的损失中。

6398db9cfe65f7a4b5572c9362262f39.png

图3 RAL策略
b) 推理

在推理阶段采用pipeline的策略。首先使用Trationale模板提示模型,模型会根据问题q和文本p生成证据。如果使用SM策略,模型先生成句子索引,然后使用句子索引从文本p中定位到相应的证据。随后使用Tanswer模板提示模型根据生成的证据做出决策。此外,我们还考虑在决策阶段让模型同时基于生成的证据和文本做出决策。

3 实验分析

3.1 数据集

459d9994319f600646c838c0d13951f6.png

表1 数据集统计

实验中使用的数据集统计结果如表1所示。FEVER 数据集旨在判断给定段落是否支持或反驳该说法。MultiRC 数据集旨在根据给定的段落为为与答案相关的问题分配True或False。BoolQ数据集旨在根据给定的段落使用True或False标签回答问题。Evi inf数据集将(干预、结果、比较者)三元组连接到问题中,目的是根据给定的段落判断干预是否显著增加、减少或对结果没有影响。Mov Rev数据集旨在分析给定段落的情感为正面或负面标签,其中问题被统一设置为“这篇评论的情感是什么?”。此外,Mov Rev数据集提供短语粒度的注释证据,而其他数据集提供句子级别的注释证据。为保持一致,我们将短语粒度的注释转换为句子粒度的注释。

3.2 评价指标

我们使用Accuracy评估任务性能,并使用Intersection-Over-Union F1分数(IOU F1),Token F1 (TF1)和证据精度(R-Acc)评估生成的证据的质量。此外,我们引入了一个新的度量,推理成功商(RSQ),以衡量生成的证据和决策之间可靠联系的程度。具体来说,我们将测试样本分为四类:

  • rcdc: 生成的证据和模型决策都正确的样本。

  • rwdw: 生成的证据和模型决策都错误的样本。

  • rcdw: 生成的证据是正确的,但模型决策是错误的。

  • rwdc: 生成的证据是错误的,但模型决策是正确的。

RSQ度量的计算方法如下。

9693e719078d273ca73df8fabdd6cb27.png

基于RSQ度量,我们还提出了RSQ-W和RSQ-C度量来指导更详细的分析。RSQ-W衡量当模型提供正确的证据时,模型做出错误决策的比例。RSQ-W度量如下:

5c51c2e50c94ea8dae5281de9beca0cc.png

RSQ-C度量当模型提供错误的证据时,模型所做正确决策的比例。RSQ-C度量如下:

732a8cf6de28f69685107efe42c13911.jpeg

3.3 主实验结果

在主实验中,我们将场景分为全监督场景和半监督场景。在全监督场景中,我们为每条训练样本提供人工注释的证据。在半监督场景中,我们和先前工作一致,仅为25%的训练样本提供人工注释的证据。

02f6a3fdf635bd491957a27703896174.png

表2 全监督场景下的实验结果

全监督场景。 如表2所示,实验结果显示了SADM框架的良好潜力。对于任务性能(Perf.)和证据质量(IOU F1, TF1和R-Acc),我们的框架在五个数据集上显示了不同程度的改进。值得注意的是,我们的框架在RSQ度量中表现出了更显著的改进,这表明在生成的证据和决策之间存在更可靠的联系。

278676a058e5d14d2d4b35d79b3392b6.png

表3 半监督场景下的实验结果

半监督场景。 考虑到证据注释的昂贵成本,半监督的场景更有可能应用于现实世界。我们只使用25%的带有注释证据的训练数据。如表3所示,在Mov Rev数据集上,我们的SADM框架在任务性能和证据质量方面的性能低于FID-Ex框架,但在RSQ指标方面仍优于前者。在其他四个数据集上,我们观察到任务性能平均提高3.7分,IOU F1提高1.3分,TF1提高0.9分,RSQ指标提高4.2分。整体上看,我们的框架显示出更显著的优势。

3.4 消融实验结果

0209e130fc9af4165543e7ac3b40c9ce.png

表4 消融实验结果

在消融实验中,我们评估了没有SM策略和RAL策略的SADM框架的性能。如表4所示,实验结果表明,无论去掉SM策略还是去掉RAL策略,SADM框架的性能均有一定程度的下降,这说明SM策略和RAL策略都起到了正向的作用。值得注意的是,我们特别验证了RAL策略对模型推理能力的影响。我们提出了以证据为中心的精度(RCP)度量,它关注为模型在决策阶段提供人工注释的证据时,模型可以做出正确决策的比例。实验结果表明,当去除RAL策略时,五个数据集的RCP度量平均下降1.3个点。这种现象凸显了RAL策略在提高模型决策阶段推理能力方面的重要意义。

4 讨论

4.1 先前研究(Measuring Association Between Labels and Free-Text Rationales)表明相比于pipeline框架,parallel框架(让模型同时生成证据和决策)的综合性能更好,这与我们工作的结论不符。

为了阐述该问题,我们首先说明和先前工作最大的区别在于实验场景的不同:自由文本证据场景vs提取证据场景:

对于自由文本证据场景,目标是让模型根据候选选项对问题做出正确的选择,并生成连贯的自由文本段落作为支持其决策的证据。对于提取证据场景,目标是让模型根据给定的文章提供问题的答案,同时从文章中提取句子作为证据以支持其决策。

先前的工作揭示了在自由文本证据场景中,pipeline框架面临以下挑战:

  • 由于在self-attribution阶段产生的质量差的证据导致的级联错误。

  • Pipeline往往将参数的数量增加一倍,以达到与端到端(I→OR)框架相当的性能,但通常性能仍然更差。

然而,这些挑战在提取证据场景中并不存在。关于挑战1,如表2所示,我们的SADM框架确保了在Self-Attribution阶段生成证据的质量。我们将这种能力归因于在基于T5的模型上使用信息提取(IE)任务的可行性。然而,在自由文本证据场景中,使用T5生成自由文本仍然存在挑战。对于挑战2,这在我们提出的框架中得到了解决。如图2所示,我们的pipeline框架在训练的两个阶段之间共享参数。在不增加额外参数的情况下,我们的框架可以获得更好的性能。

因此,在不同的场景下,我们可以考虑基座模型的能力从而选择不同的架构。

4.2 ChatGPT在该任务上的性能如何?

在rebuttal阶段,我们补充了关于对ChatGPT的分析(https://openreview.net/forum?id=xJ3O94DnMZ&noteId=LyQNj6XpjJ)。实验结果表明,我们的模型在各种其他数据集和指标上优于ChatGPT。我们将此归因于两个关键因素:

  • 我们的数据主要由冗长的文本组成,充满了复杂和嘈杂的信息。处理复杂的信息对任何语言模型都是一个挑战,包括ChatGPT,特别是没有针对我们的特定场景进行微调的语言模型。

  • 我们的任务包括从文章中提取句子作为证据,类似于信息提取(Information Extraction, IE)任务。值得注意的是,有大量的工作[3][4]表明,ChatGPT在IE任务上的性能明显弱于精细调整的较小模型。因此,与ChatGPT相比,我们的模型的优越性能并不奇怪。

即便如此,我们也并不能认为ChatGPT的能力较弱。正如4.1讨论的,我们需要考虑基座模型本身的能力。ChatGPT的强大之处在于其生成能力而不是抽取,如果我们不严格控制ChatGPT从文本中提取证据,而是鼓励ChatGPT生成一段自由文本的证据,也许会展现一个不一样的结果。

参考文献

[1] Jay DeYoung, Sarthak Jain, Nazneen Fatema Rajani, Eric Lehman, Caiming Xiong, Richard Socher, and Byron C Wallace. 2019. Eraser: A benchmark to evaluate rationalized nlp models. arXiv preprint arXiv:1911.03429.

[2] Kushal Lakhotia, Bhargavi Paranjape, Asish Ghoshal, Wen-tau Yih, Yashar Mehdad, and Srinivasan Iyer. 2020. Fid-ex: Improving sequence-to-sequence models for extractive rationale generation. arXiv preprint arXiv:2012.15482.

[3] Jonathan St BT Evans. 1984. Heuristic and analytic processes in reasoning. British Journal of Psychology, 75(4):451–468.

[4] Gautier Izacard and Edouard Grave. 2020. Leveraging passage retrieval with generative models for open domain question answering. arXiv preprint arXiv:2007.01282.

[5] Sarah Wiegreffe, Ana Marasovic, and Noah A Smith. ´ 2020. Measuring association between labels and freetext rationales. arXiv preprint arXiv:2010.12762. 

[6] Bhargavi Paranjape, Mandar Joshi, John Thickstun, Hannaneh Hajishirzi, and Luke Zettlemoyer. 2020. An information bottleneck approach for controlling conciseness in rationale extraction. arXiv preprint arXiv:2005.00652.

[7] Asish Ghoshal, Srinivasan Iyer, Bhargavi Paranjape, Kushal Lakhotia, Scott Wen-tau Yih, and Yashar Mehdad. 2022. Quaser: Question answering with scalable extractive rationalization. In Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 1208–1218.

[8] James Thorne, Andreas Vlachos, Christos Christodoulopoulos, and Arpit Mittal. 2018. Fever: a large-scale dataset for fact extraction and verification. arXiv preprint arXiv:1803.05355.

[9] Daniel Khashabi, Snigdha Chaturvedi, Michael Roth, Shyam Upadhyay, and Dan Roth. 2018. Looking beyond the surface: A challenge set for reading comprehension over multiple sentences. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 252–262.

[10] Christopher Clark, Kenton Lee, Ming-Wei Chang, Tom Kwiatkowski, Michael Collins, and Kristina Toutanova. 2019. Boolq: Exploring the surprising difficulty of natural yes/no questions. arXiv preprint arXiv:1905.10044.

[11] Eric Lehman, Jay DeYoung, Regina Barzilay, and Byron C Wallace. 2019. Inferring which medical treatments work from reports of clinical trials. arXiv preprint arXiv:1904.01606.

[12] Omar Zaidan and Jason Eisner. 2008. Modeling annotators: A generative approach to learning from annotator rationales. In Proceedings of the 2008 conference on Empirical methods in natural language processing, pages 31–40.

[13] Sharan Narang, Colin Raffel, Katherine Lee, Adam Roberts, Noah Fiedel, and Karishma Malkan. 2020. Wt5?! training text-to-text models to explain their predictions. arXiv preprint arXiv:2004.14546.

本期责任编辑:赵森栋

本期编辑:李宝航


公众号后台回复aaai、acl、naacl直接进投稿群~

回复LLM进入技术交流群~

39359c5a5668d3e69638922f00bb05fb.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值